2019-7-2 23:14

基于AI的数据中心冷冻水制冷系统优化技术

摘 要

本文主要是中国联通河南分公司对中原数据基地数据中心冷冻水制冷系统进行创新,采用基于AI技术的创新性的优化手段,分别从背景分析、AI原理、现场部署、后期优化调整等角度入手,最终成功的实现了数据中心整体PUE智能调优的节能目标。

关键词

AI 数据中心 冷冻水制冷系统 大数据 能效优化 PUE DNN

概述

中国联通河南分公司基于AI和大数据技术,针对数据中心的冷冻水制冷系统进行优化,重点解决数据中心高PUE、高能耗的问题,并结合实际情况制定了相应的优化方案。

1.1数据中心能耗分析

网络演进和数据业务的快速发展带动数据产业的快速发展,使数据中心的规模越来越大,消耗的电能也越来越多,用电问题已成为制约数据中心业务发展的瓶颈。以中原数据基地二期为例,10年的生命周期内,用电成本约占数据中心整体运行成本的60%以上。

将用电成本进行整体分析,在非IT的能耗中,约有63%的损耗是制冷系统造成的。因此如何有效降低制冷系统的损耗,是降低数据中心整体能耗的关键。

1.2能效指标PUE

为评估数据中心的能效,Green Grid(绿格组织)提出了指标PUE(Power Usage Effectiveness)来综合考察数据中心的用能效率。目前PUE已经成为事实上衡量数据中心能效的KPI。根据Green Grid的定义,数据中心电能效率被定义为总设施耗电与IT 设备耗电的比值:

PUE=数据中心输入总功耗/IT设备功耗

在数据中心能耗结构中,IT设备功耗与制冷能耗是大户,根据数据中心设备的散热要求,IT设备消耗的电力最终转化为热量,需要通过冷量来均衡,使环境温度达到IT设备工作的要求范围。在IT设备能耗一定的情况下,制冷设备的能耗是可以通过制冷系统的优化来达到节能目的。

1.3制冷系统运行现状分析

冷冻机、水泵和冷却塔风机作为机械部件,实际上都存在设备本身的“自然曲线--最佳效率曲线”。虽然冷冻站的冷冻机、水泵和冷却塔设备采用主流厂家生产的高效率产品,但严格意义上来说,这些高效率只是对应了设计图纸上的“静态”点,而实际空调系统是随着外部气象条件和内部负荷动态变化的系统,目前的BMS(Building Management System)系统仅停留在单体设备的控制或采集及监测数据上,冷冻站缺少一套“聪明”的能耗优化控制系统,而BMS系统并不能使设备在变化负荷情况下,让设备“跑”在其固有的最佳效率曲线上,即“自然曲线”。

如何让冷机系统的各部件工作在最佳效率曲线上,并且使得由设备组成的系统能够工作在最佳的能耗点上,需要将整个系统进行联合,综合考虑能耗最优的控制方法。

数据中心PUE是一个综合的评价指标,由于制冷与设备散热、设备配置、机房环境,大气条件相互关联,在运维达到一定的成熟度后,人力或者专家的经验已经无法满足能耗进一步降低的要求,比如冷通道温度的较小提升都会导致制冷系统的很多变化,如冷机、冷却塔、换热器、水泵等的功耗都将增减不定,且非线性变化,其结果很可能是冷通道温度提升而总功耗增加。

为进一步优化系统工作状态与能耗的关系,在制冷系统中,需要考虑两个层面的优化,一个是设备工作状态与能耗的优化,一个是设备组成的系统间的优化。在业务层面,需要解决下面三个问题:

1)根据设备工作自然曲线,确保制冷系统的各部件运行在高效区间内;

2)据相等边际效能原则,找出制冷系统内各个部件的最佳组合。例如同样输出1000KW冷量,冷却塔、冷却泵、冷机,冷冻泵各自的频率应当是多少?哪种组合更节能?在某种状态下,是否可以给某个设备减少1KW的功率而把这1KW的功率转移至其它设备,但系统总冷量输出会增加?

3)IT负载与制冷系统进行关联,实现热量需求与冷量供给的均衡。

制冷和电气系统之间的相互作用和各种复杂反馈回路,使得我们使用传统的工程公式难以准确推导数据中心的效率。

AI节能原理

2.1制冷系统AI算法原理

基于相等边际效能的按需控制,可以满足部分场景的控制需求,但由于BMS系统在进行控制时,往往事先写入曲线、逻辑控制策略,而对于变化的场景,特别是对于IT负载变化的场景,此类控制系统往往无法感知,因此,在实际的控制过程中,往往只能在特定的负载区间变现出一定的调试性能,当进入到实际工作中,整个数据中心的效能往往无法保障最优。

针对此类系统,需要找到一种新的控制算法,来达成整体最优。大数据、人工智能成为能效优化的一个探索方向。使用历史数据训练神经网络,输出预测的PUE,以及PUE与各类特征数据的关系,指导DC根据当前气象、负载工况,按预期进行对应的优化控制,实现节能目标:

AI节能的主要步骤:

1)首先通过机器深度学习,获取PUE的预测模型。

2)基于PUE的预测模型,获取与PUE敏感的特征值,利用特征值,进行业务训练、给出业务的预测模型。主要是保障业务运行的SLA,如冷量的保障等。

3)最后,利用系统可调整的参数作为输入,将PUE预测模型,业务预测模型作为约束,利用寻优算法,获取调优参数组,下发到控制系统,实现制冷系统的控制。

2.2构建深度神经网络DNN

神经网络是一类机器学习算法,它模拟神经元之间相互作用的认知行为。针对数据中心制冷效率提升瓶颈,采用神经网络,利用机器学习算法可以找到不同设备,不同系统间的参数的关联关系,利用现有的大量传感器数据来建立一个数学模型,理解操作参数之间的关系从而找到最优的参数。

神经网络拥有输入层、输出层以及多个隐含层,输入的特征向量通过隐含层变换达到输出层,在输出层得到分类结果。

考虑到数据中心制冷系统的复杂性,需要对电系统,制冷系统、环境参数进行系统数据,找到系统的特征值,并利用特征值组织DNN网络。本项目中采用的DNN模型如下:

AI节能步骤

1)数据采集:采集冷冻站、末端空调及IT负载等系统的相关运行参数。

2)数据治理:利用自动化治理工具,对参数进行降维、降噪、清洗等处理。

3)特征工程:对治理完成后的表格进行相关性分析,找出与PUE相关的关键参数。

4)模型训练:利用高质量的数据和DNN(深度神经网络),训练出PUE模型。经过训练的PUE模型,其预测准确率可达99.5%,误差<0.005。

5)推理决策:将预测以及决策模型发布到集控系统中,以在线给出可以调优的决策模型。AI节能方案可在1分钟内,从数十万种组合中找出在当前室外环境、IT负载下的最优参数组合,并能根据中原基地的运维要求进行多层过滤,最后得出最合适的指令,下发执行并反馈效果。

项目实施

1)部署方案

AI节能方案可为冷冻水系统运行提供参数建议,与群控系统互相对接。

在本项目中的AI节能方案部署物理架构如下:

AI节能方案网络架构如下:

 

此数据中心的群控系统采用DDC控制,主备双服务器;DCIM系统接口为BACnet协议。DCIM(Date Center Infrastructure Management)作为整个数据中心的集中管理系统,可对制冷系统全链路进行集中管理。节能优化指令由AI算法得出后,下发到群控系统,由群控系统负责最终执行。

安全保障

冻站群控系统与AI算法通过心跳进行通讯:冷冻站群控系统每10秒上传0-1000的字符,AI节能算法向冷冻站群控系统每10秒下发0-1000的字符,当冷冻站群控系统连续10次接收字符无变化,则自动退出节能模式,按照普通控制模式运行,并上报通讯故障,待连续10次接收字符不同时,则自动恢复通讯故障,重新按照节能控制模式运行。

普通控制模式:群控系统自动执行所有控制逻辑,包括设备加减、转速调节、制冷模式切换、旁通、充放冷等,由DCIM进行状态信息监控;

节能控制模式:群控系统接受节能算法,下发指令完成指定动作,指令包设备数量、转速/功率/温度/压差等控制环路目标值、制冷模式切换、充放冷控制等,群控系统根据节能算法下发的指令进行动作,未下发控制指令的仍由群控系统自行控制。

效果验证

测量方法采用抽样均值法

Step1:选择测量日

评价周期内选 2 组,n天/组(n ≤ 3)

Step2:测量与记录

开启/暂停AI节能,每组测量日测得2n个PUE值(PUE on和PUE off)

Step3:计算与对比

根据PUE on和PUE off 均值进行计算评估

如下图:

结论

本项技术,已经在河南联通中原数据基地DC1成功应用,通过AI技术对数据中心制冷系统进行了智能优化。通过与BA(Building Automation System)系统、DCIM(Date Center Infrastructure Management)系统的联动,实现了精确的按需制冷。经过连续几个周期的抽样检查,得出以下结论:

冷水机组的进出水温度实现了精确调节。随IT负载的变化,水温也随之变化(当负载率较低时,水温最高可升至18℃-19℃)。

冷水系统各部件均实现了高效运转。尤其是冷水机组,在不同的负载率、室外工况下,其工作状态都能落在40%-60%的负载区间内。

整个制冷系统在输出冷量不变的前提下,进行了内部调节,实现了能效最佳。下图为一次调节前后,制冷系统各部件能耗分布。由于冷机的功耗得到了有效调节,整个冷冻站综合能耗降低了9%。

调节前                    调节后

自然冷却时间大大延长。由于水温实现了动态调节,这样在室外湿球温度较高时,也可实现预冷或板换制冷。据估算,每年自然冷却时长可增加1/3左右。

整个制冷系统实现了自动调节,大幅降低了运维难度,节省了大量运维成本。

经评估,部署了AI节能优化算法后,河南联通中原数据基地DC1的PUE有效降低 5%-8%,为企业带来了显著的经济效益和社会效益。

参考文献

1、李航 《统计学习方法》清华大学出版社

2、周志华 《机器学习》清华大学出版社

3、阿布,胥嘉幸《机器学习之路--Caffe、Keras、scikit-learn实战》电子工业出版社

4、Yuanlong Li, Yonggang Wen, Kyle Guan, and Dacheng Tao《Transforming Cooling Optimization for Green Data Center via Deep Reinforcement Learning》南洋理工大学

5、Nevena Lazic, Tyler Lu, Craig Boutilier, Moonkyung Ryu《Data center cooling using model-predictive control》Google Research

作者:雷宇 徐文洪   来源:邮电设计技术

相关

网络中国联通监测传感器服务器
本评论 更新于:2024-4-21 0:13:03
在C114 APP中与业内人士畅聊通信行业热点话题!