2024-9-20 15:51

开放兼容,联合创新:新华三加速LPO规模商用

C114讯 9月20日消息(水易)大模型训练需要大算力的支撑,GPU性能迭代也随之加速。即便如此,单片GPU的性能永远无法跟上大模型的需求,智算集群成为必选项,千卡已是常态,万卡如火如荼,十万卡成为目标。同时,为充分发挥每一分算力的效能,智算网络的技术演进成为关键。

这一轮智算网络建设,为满足大模型更大数据量、更快速度的计算任务,更高端口速率和交换容量的交换机成为刚需,随之也带来了能耗挑战。目前已有专家指出,以电力为代表的能源可能成为掣肘智算中心建设的瓶颈。

数据显示,在网络设备中,以光模块为代表的关键器件是能耗大户,为了实现高速传输与低功耗之间的平衡,LPO等光互连技术受到重视,已经有头部互联网企业开始试点部署,展现了良好的光链路性能。

作为致力于推动标准化联接促进智算网络创新的“领头羊”,新华三基于400G智算交换机与十余家模块厂商的DSP&LPO模块现场互联测试,良好的测试结果充分体现了新华三智算交换机的稳定性与兼容性,基于光互连技术为智算网络建设提速、降耗,全面赋能AI产业高速发展。

联调:促进LPO技术验证

从光模块的技术演进来看,随着速率的不断提升,为确保信号在传输过程中的准确性和可靠性,业界通过引入DSP芯片,对本端/多端的交换机电信号进行整形重塑,降低误码率。因此在高速光模块内部,DSP一直是必备器件。

不过,DSP的不足之处就是成本高、功耗大,统计显示,传统DSP芯片方案会占模块50%以上的功耗。光模块速率的不断提升,功耗也会数量级的攀升,对智算中心带来极大的技术挑战,也与绿色低碳的发展理念相悖。

如何降低光模块功耗,最直接的手段就是去掉或减少DSP在光模块内部的使用。LPO去掉了传统DSP模块中的DSP芯片,利用交换机芯片进行电信号的处理。同时,LPO仍然保持可插拔模块形态,可重用现有成熟的部分光模块产业链,最大限度的实现低功耗、低时延、低成本和高可靠。

综合来看,LPO是一个绿色节能的技术,业界也认为400G/800G周期的下一波需求将会是LPO,解决的重点就是功耗挑战。不过,真正落地还有一系列的挑战,首先是标准,LPO由于无DSP,互操作性存在挑战,目前产业界已经发起LPO MSA,建立相关标准规范。

更为重要的是如何确保以上提到的效果能实现。今年的CIOE中国光博会期间,某头部测试测量厂商在接受C114专访时谈到,LPO将光模块DSP拿掉之后,将会强烈依赖交换机芯片SerDes,这对测试策略产生巨大的影响,LPO如何对标交换机的性能指标,是最大的挑战。

新华三认为,LPO模块需要和设备联合起来,才能真正实现LPO所带来的效果。新华三同钧恒科技进行联合400G QSFP112 LPO开发,通过模块底层光电芯片合理选型、SI仿真优化、系统级参数调优、完善的测试策略,充分保证了LPO模块与交换机的良好适配和快速部署。

兼容加速LPO规模商用

当然,联合开发并不意味着只能适配某一特定厂商的模块。此次新华三作为设备厂商,同时跟十余家光模块厂商完成了DSP&LPO模块现场互联测试,这是国内第一次交换机设备与十多家光模块的批量实测,充分体现了新华三在生态合作方面的广度。

值得一提的是,考虑到前文提到了联合调优的重要性,新华三还打造了多种智能软件调优方案,助力不同厂商的LPO模块与新华三主机的适配调优,以实现更良好的兼容性,为不同端口走线的LPO模块提供良好的电信号驱动能力。

据了解,在本次DSP&LPO模块互联测试中,数据显示不同厂商的LPO模块在H3C S9827上的误码率均低于IEEE定义的门限要求,且经过与主机适配调优后的LPO模块具有更好的性能参数、误码率更贴近DSP模块,也进一步说明主机与LPO适配的重要性。

不止于此,新华三智算交换机的产品布局丰富,H3C S9827系列能够实现对各厂家的不同模块规格(VR4、DR4等)、不同芯片方案(DSP、LPO)、不同激光器方案(EML、硅光)、多种应用模式(一对一、一分二)的QSFP112模块的类型读取,可灵活智能识别端口模块模式。

回头看LPO技术的初衷,寻找高速传输与低功耗之间的平衡。更高速率在短期内挑战不大,难的是低功耗。目前业界对于绿色光互连技术探索主要从光模块功耗、网络架构设计以及系统散热方案三方面入手。

LPO是业界对于降低光模块功耗的探索,而从系统散热的角度看,今年的CIOE中国光博会期间,C114也看到头部光模块厂商都推出了相应的浸没式液冷方案,多管齐下满足智算中心低功耗的需求。

新华三积极探索与实践多样化的节能降耗策略,将绿色低碳理念融入交换机产品研发设计当中,H3C S9827系列不仅支持全端口LPO可插拔模块应用,还具备风冷液冷兼容设计,通过LPO与液冷技术的融合,实现整机功耗降低25%~40%,满足PUE≤1.14的要求。

开放践行标准化联接

回到文章开头提到的智算网络的创新变革,新华三始终倡导标准化联接,创新性提出“算力×联接”的理念,通过开放、标准的联接技术,构建开放多元的智算生态,满足人工智能应用对海量多元异构算力的需求。

光模块是其中智算网络的“关键环节”之一,也是智算生态产业中的一环,本次与十余家光模块厂商的现场实测,进一步证明了新华三交换机具备标准开放的特性。另外,与钧恒科技联合研发的LPO模块,其内部的兼容设计允许多芯片方案并行开发和验证。

据悉,在追求高效率、高能效、低功耗的AI智算应用的解决方案的道路上,新华三持续精进,在当下趋于成熟化的400G LPO解决方案的火热探讨中,新华三也已具备800G LPO的高密智算交换机,以前瞻性视角推动智算网络的发展。

除了创新的LPO交换机产品外,新华三打造的算力集群核心交换机H3C S12500 AI将传统框式设备的控制引擎、交换网板、业务板卡分别独立为盒式设备,通过高速光模块互联,满足灵活组网需求,斩获第八届未来网络大会“创新科技成果奖”殊荣。

与此同时,新华三还推出了《智算网络异构连通专项测试》标准,现已完成包括GPU、光模块、网卡等在内等全异构硬件平台连通性验证,以及不同技术方案间的联调适配,进一步推动国内智算产业的生态协作。

面向未来,新华三也将持续与更多的光模块厂商合作,打造开放市场生态,共研高品质模块组件,为客户提供从主机到互连组件的高可靠性、高稳定性、高兼容性的全套方案产品,促进光通信产业的发展,满足人工智能应用对算力的需求,为百行百业的数智发展注入强劲动能。

作者:水易   来源:C114通信网

相关

新华三网络交换机互联网DSP
本评论 更新于:2024-12-21 13:31:23
在C114 APP中与业内人士畅聊通信行业热点话题!