在由中国信息通信研究院主办的智算IP广域网产业交流会上,中国电信股份有限公司上海分公司(以下简称“上海电信”)副总工程师张坚平分享了“算网筑基,智赋百业,上海电信打造业界首个400GE IP弹性无损智算广域网络,为千行万业提供高弹性、高吞吐、高可靠的一跳入多智算新服务”的演讲。张坚平表示上海电信贯彻智云网络“以网促算”策略,打造端到端400GE IP弹性无损智算广域网络,提供海量样本高效入算,存算分离拉远训练,为千行百业提供像水和电一样的公共算力服务。
当前智算业务流量变化给传统网络带来两大挑战,一是智算业务流量模型普遍流数少,单流带宽大,容易导致网络部分链路拥塞造成整体网络吞吐量不高。二是随着智算业务传输协议向RDMA协议发展,传输对丢包率的敏感度提升,千分之一的丢包导致智算中心计算效率下降50%。
面对上海全市300多家企业、40多所高校和研究所,11个信息化园区的用算诉求,上海电信打造具备智能运力的智算广域网,通过网络高吞吐使能“算得多”,RDMA广域无损保障“算得快”,任务式弹性服务做到“用得起”,全面匹配智算时代下新供需关系带来的网络诉求。该网络具备如下特点:
400GE弹性算网,一跳入多算:端到端部署400GE大带宽接口技术,将网络运力提升4倍。企业侧部署智算CPE构筑10Mbps~100Gbps IP弹性专线,满足企业一条专线同时访问智算、超算以及通算等多种异构算力资源池的需求。
长距RDMA无损传输:部署RDMA无损传输技术,使网络吞吐率逼近400GE线路带宽,支持广域超百公里RDMA远距离、高吞吐无损传输,算效不下降。
时延可保障:智算广域网络结合网络控制器智能调度能力,实现算力业务传输质量实时可视。基于网络路径秒级调优能力,智算网络可以保障算力业务传输时延,从而满足推理业务流量毫秒级传输。
张坚平稍后还分享了智算广域网络上开展的最新实践成果。一是在开启负载均衡和精准流控功能下,应用层有效传输速率提升7倍,传输时间降低了86%。二是通过引入广域RDMA无损技术,跨百公里的存算拉远训练效率达到99%以上,从而支撑智算广域网满足海量租户进行并发训练。
张坚平最后表示上海电信后续将分三步打造高效无损、高效协同、泛在敏捷入算的算力网络基础设施。最终实现智算广域能力服务长三角算网一体化,迭代升级推理业务的智能保障能力,打造最优用户体验的训推一体算力网络。