本文版权为《邮电设计技术》所有,如需转载请联系《邮电设计技术》编辑部
摘要:高性能算力产业的需求随着人工智能应用的普及和不断发展而持续增加,出现了越来越多的算力协同场景。介绍了算力互联、数据传输中,影响RDMA长距吞吐量的因素,提出了超大带宽及确定性体验的网络解决方案,以实现高性能算力互联。
关键词:长距 RDMA;全光网;OTN;OXC
doi:10.12045/j.issn.1007-3043.2024.02.002
引言
2022年1月,国务院印发《“十四五”数字经济发展规划》,提出加快建设信息网络基础设施,有序推进基础设施智能升级,加快实施“东数西算”工程的要求。随着国家东数西算战略的推进,越来越多的算力协同场景以及跨地域大数据搬移场景开始涌现。数据和算力已经不再局限于单一的数据中心,更多的新型计算任务和大量数据需要在多个算力中心间流转并进行算力协同,算力中心间的长距高性能传输能力已成为影响业务性能的关键因素。
算力互联意味着将算力中心内部的 DCN 网络进行延伸,典型的DCN网络覆盖范围在10 km以内,且高性能计算 DCN 网络当前主流的协议为远程内存直接访问(Remote Direct Memory Access,RDMA),由 于RDMA协议要求无损传输,当将 DCN网络扩展到广域百公里至千公里的范围时,会导致超长的链路传输时延,进而导致网络状态反馈滞后。然而,现有的传输层协议的拥塞控制算法存在不足之处(例如,在长距离传输中,Cubic算法的带宽利用率低,丢包现象较为严重),无法有效地利用带宽。为了应对超长距传输的挑战,满足高性能算力互连的需求,承载网必须具备长距无损确定性传输能力,并且需要与终端侧进行协同,以确保高性能协议的传输效率。因此,如何构建大带宽的确定性网络以实现千公里级 RDMA 的无损传输是当前广域算力互联领域的研究热点。