本文版权为《邮电设计技术》所有,如需转载请联系《邮电设计技术》编辑部
摘要:面向算力网络的多元化、多样化、高速化发展趋势以及数据中心网络架构的演进趋势,为解决飞速增长的高性能处理需求、数据存储和算力处理效率问题,在分析总结远端内存直接访问(RemoteDirectMemoryAccess,RDMA)技术的基础上,研究了无损网络的优势应用场景,提出了无损网络组网技术策略,经实测验证,组网性能满足高性能场景需求。
关键词:算力网络;无损网络;RDMA;组网技术
doi:10.12045/j.issn.1007-3043.2024.07.016
引言
随着数字中国建设的不断加速,算力网络向多元化、多样化、高速化方向发展。一方面,图形处理器(Graphics Processing Unit,GPU)、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)、中央处理器分散处理单元(DataProcessing Unit,DPU)等高性能异构计算芯片不断涌现,近5年来,处理器计算性能提升约90倍,同步即时处理数据量增长近百倍;另一方面,全闪存储的出现推动了存储产业升级换代,固态硬盘读写能力较传统机械硬盘提升近百倍,非易失性高速传输总线(Non-Volatile Memory Express,NVMe)的高性能与传统光纤总线(FibreChannel,FC)存储网络技术发展进度不再匹配。计算、存储对数据中心内网络提出了集中化、低时延、高吞吐、0丢包等要求,需要通过无损网络技术,促进算力、网络、存储相互匹配、协同。
现有主流数据中心内网络正逐步由大二层向“IPCLOS”的组网架构演进,底层基于传统以太网络架构,二层spine交换机和leaf交换机之间通过full-mesh方式连接,即软硬件架构仍主要基于传统传输控制协议/网际协议(Transmission Control Protocol/Internet Proto?col,TCP/IP),其与生俱来的技术特征在面向AI计算和分布式存储等应用时,出现了高中央处理器(CentralProcessing Unit,CPU)消耗、存储处理延时达数十微秒、多次内存拷贝、丢包重传等问题。
为解决上述时延和确定性等问题,RDMA联盟和无限带宽协会(InfiniBand Trade Association,IBTA)主导提出了基于RDMA的无损网络技术。RDMA采用智能网卡和软件架构优化,无需操作系统和TCP/IP协议栈介入,以零复制网络技术和内核内存旁路技术实现高性能远程直接数据存取,可将服务期内数据传输时延降低至1μs以下,极大地减轻了CPU的负担。
目前,无损网络是数据中心网络演进的新方向,电气与电子工程师协会(InstituteofElectrical and Electronics Engineers,IEEE)、中国通信标准化协会(ChinaCommunications Standards Association,CCSA)、开放数据中心委员会(OpenData Center Committee,ODCC)等国内外团体均在数据中心无损网络方面开展了标准化研究工作。本文分析RDMA无损网络技术特点,研究无损网络的优势应用场景,结合产业生态的成熟度,提出无损网络组网技术策略,并通过实测验证其组网性能,最后探讨无损网络的进一步发展,为无损网络的组网架构和技术演进、提升高性能计算和全闪存储部署效率提供参考,促进无损网络向服务算力网络发展。