2024-11-6 16:51

震憾!走进全球运营商最大的单集群智算中心

00:00 00:00

近日,有幸参观了中国移动智算中心(哈尔滨)。该中心是全球运营商最大单集群智算中心,AI芯片国产化率100%,首次通过国产网络设备探索1.8万张智算卡单集群部署规模上限,可提供6.9EFLOPS(每秒690亿亿次半精度浮点运算)智能算力,融合分级存储达 150P,创新应用GSE1.0,天池SDN等多项中国移动自主研发技术。

中国移动智算中心(哈尔滨)曾用名#哈尔滨数据中心,中国移动移动的三大低成本数据中心(另外两个在内蒙古和贵州)。

哈尔滨数据中心抓住全球大模型高速增长商机,在当地政府、集团公司及供应链伙伴的支持下,基于“D-PDCA双循环”管理机制,历时两个100天,完成3千多平米高功耗机房重大调整改造,千万级精密器件复杂施工;在30多个单位,千余人的协同作战下,提前4个月,建成全球运营商最大单集群智算中心,充分展现了龙江速度。

第一个“一个100天”,完成机房的电源、空调、电气、建筑结构的扩容及智能化改造。业内首次挑战46KW高功耗风冷,创新引入大型集装箱式“10KV中压直供设备”新型供电模式,通过规、建、监、施协同作战,优化创新方案、专业强化管理等措施,实现430可装机,530全加电,620优交付,工期压缩40%。

第二个“一个100天”,实现智算集群全量设备点亮。面对大规模集群施工在技术领先性、首创性和复杂性的交付挑战,通过“早启动、定标准、造工具、融工序、勇创新、强投入”六大举措,筑牢集群质量,实现610可调测,730全点亮,830全交付,提前4个月投产。

中国移动智算中心(哈尔滨)支持万卡并行训练,智能断点续训,AI任务生命周期管理,分钟级故障定界、定位。目前,中国移动九天千亿参数模型已在集群上实现高效、长期稳定训练。

中国移动智算中心(哈尔滨)通过科学管理、精细化设计和高工艺实施,完成集群稳定性、算力效率、海量数据和高可用性挑战,打造具备极致算力、极限组网、极效存储、极速运维的智算“超级工厂”,释放算力集群优势,为万亿模型训练提供强大的算力底座。

极致算力AI芯片国产化率100%,首次通过国产网络设备探索1.8万张智算卡单集群部署规模上限,算力达到 6.9EFLOPS(每秒 690 亿亿次半精度浮点运算),通过单一集群强大算力有效支撑大型AI模型训练,并通过网络精细化设计、软硬件全栈整合优化,实现集群算力效率的近线性提升,确保万卡集群最大化释放算力,满足万亿参数大模型训练要求。

极限组网,采用国产46KW 风冷网络设备、构建最大规模两级组网。高性能、高功耗国产网络设备首次端口满负荷配置,达到网络设备能力上限,采用高速、低延时、无阻塞两级组网,保证数据的高效通信。创新应用中国移动自研的天池SDN,提供网络功能自服务能力;创新引入中国移动自主知识产权、首个非美标智算组网GSE技术。

极效存储,面对万亿模型PB级训练数据集的多协议处理,采用大规模融合分级存储,通过训练数据智能分级和统一管理,实现数据高效共享和处理,满足大模型训练时海量、多样数据的高效处理和高吞吐要求。

极速运维,建立SLA标准服务支撑体系,提供矩阵式维护服务;部署一体化智能管控工具,对AI训练任务进行全生命周期管理,实现小时级智能断点续训、分钟级故障定界定位;建立Class8级机房环境标准,降低千万精密器件故障率。通过制度、技术和标准三大措施,保障万张AI加速卡长时间稳定并行训练,为万亿模型训练提供高性能、高可用、高可靠的算力底座。

“该集群高效灵活的智算云服务能力,将为万亿级大模型提供高效、稳定、安全可控的算力底座,推动国内人工智能产业健康发展。”中国移动黑龙江公司政企事业部经理郅刚说。

来源:C114通信网

相关

中国移动运营商网络融合SDN
本评论 更新于:2024-11-7 5:31:00
在C114 APP中与业内人士畅聊通信行业热点话题!