2024-11-21 14:23

基于深度时序学习的数据中心热风险智能检测与预警研究

本文版权为《邮电设计技术》所有,如需转载请联系《邮电设计技术》编辑部

摘 要:数据中心内部设备产热量巨大,制冷系统运行不佳会导致热量堆积产生热风险。提出了一种基于 Bi-LSTM 的深度学习网络的数据中心热风险管理方法,通过对机房计算节点的温度场数据进行预处理和热风险标识,使用历史数据对数据中心机房计算节点热风险进行预警。针对机房内复杂的热环境,使用统计学方法从时空 2 个维度判定热风险标签,用于网络的训练,并将所得模型与传统机器学习模型进行对比,所提方法对热风险的预测精度可达99.07%,比传统机器学习模型的预测精度提升6.6%,可实现可靠的热风险预警管理。

关键词:数据中心;热风险;深度学习;Bi-LSTM

doi:10.12045/j.issn.1007-3043.2024.10.002

引言

随着大数据、人工智能以及云计算等技术的迅速发展,行业对算力的需求也急剧增加。作为信息技术领域的重要基础设施,数据中心的投资建设也出现了井喷式增长。据统计,2017年我国数据中心的年总用电量已经达到1 200~1 300亿kWh,在全社会用电量中的占比超2%。其中,IT设备的能耗占数据中心总能耗的 44%,且这部分电能会全部转化为热能释放到机房内。因此,为保证设备的正常运转,需使用冷却设备将这部分热量排除。此外,IT设备所产生的热量仅占到数据中心总热量的 70%~80%。室外环境通过围护结构向室内的传热、运维检修人员的散热和照明设备的散热等都会给数据中心的制冷系统增加额外的负荷,以上这些负荷需求对数据中心冷却系统的散热能力提出了更高的要求。

虽然数据中心通常配备了复杂的制冷系统,但研究表明,在各种冷却技术下,数据中心内部温度的分布在时间与空间上依然存在着不均匀性,且由于产热位置的不均匀性,机房内位置相邻测点的温度可能并没有明显的相关性。数据中心机房内复杂的热特性使得微小的扰动也有可能导致其热平衡被破坏,从而发生潜在的热风险,影响数据中心服务器的安全运行,造成经济损失。数据中心服务于人工智能计算,同样也可以使用人工智能技术解决其面临的难题。使用深度学习模型,利用历史的时序信息建立预测数据机房热风险的模型,能够提前获知可能存在的风险,预先进行干预,防止出现运维事故。

目前,对于数据中心热风险检测和预警的研究较为缺乏,尚未形成有效的热预警方法来解决热安全管理难题。本文提出一种基于 Bi-LSTM 的深度学习网络,使用数据驱动的方法对数据中心运行过程中可能存在的热风险进行预警。本研究的技术路线如图 1所示。


点击查看全文(PDF)>

作者:贺 晓,朱 旭,闫若飞,吴 帅,刘 湃,吴江风   来源:邮电设计技术

相关

网络服务器
本评论 更新于:2024-12-22 1:37:45
在C114 APP中与业内人士畅聊通信行业热点话题!