2024年9月27日,在中国算力大会期间,中国移动联合全球50余家合作伙伴正式发布全调度以太网(GSE)全套技术标准,同时全球首发GSE商用产品。中国移动通信集团有限公司副总经理李慧镝及多位产业界领导专家共同出席发布仪式。此次发布是GSE发展历程中的一个重要里程碑,将进一步推动GSE技术体系在全球主流智算网络广泛应用,为世界贡献中国智慧,助力全球AI产业发展。
统一标准体系,覆盖所有场景
为兼顾智算中心建设的节奏与技术发展的需求,全调度以太网技术被划分为GSE1.0和GSE2.0两个商用阶段。本次发布会全面发布了GSE1.0和GSE2.0三本标准,分别是《GSE1.0 算网协同技术标准》、《GSE 2.0网络侧优化技术标准》即GSE-N2N标准和《GSE2.0 端网协同技术标准》即GSE-E2E标准。
GSE1.0基于现有芯片实现,满足近期部署需求;GSE2.0引入全新以太网转发和流控机制,满足中远期超十万卡需求和不同GPU形态部署需求,亮点很多,我们下面盘点一下。
当前智算中心服务器主要有两类,一类是GPU集成网卡,典型产品如华为昇腾910系列;另一类是配备独立网卡的GPU服务器,典型产品如英伟达H800等系列。通常需要不同的网络解决方案。GSE采用统一设计理念,形成了GSE-N2N和GSE-E2E两大模式,以满足各种智算中心的网络需求。
GSE-N2N技术方案适用于GPU集成网卡场景,网络设备支持GSE的全部功能,使得GPU服务器与GSE网络之间无需直接联动,实现天然解耦,同时确保无损、高性能的集群互联;GSE-E2E技术方案则适用于配备独立网卡的GPU服务器,通过将部分GSE能力延伸至GPU服务器的网卡,借助端网协同实现高性能的集群互联。
GSE2.0两本标准中采用了四大原创技术,以提升智算中心网络的性能、可靠性和安全性。一是基于PKTC的多路径喷洒:该技术实现了网络中99%以上的负载均衡,大幅提升了智算中心网络的带宽利用率。二是基于DGSQ的拥塞控制机制:通过动态出口授权机制,确保流量负载不超过网络的承载能力,有效避免了网络拥塞。三是基于66B原子码块的故障检测与通告:该技术实现了微秒级的快速故障感知和亚毫秒级的网络恢复,显著提高了网络的可靠性。四是以太网物理层安全机制:提供了bit流级的安全保障,增强了数据传输的安全性。此外,GSE还提出了简洁高效的控制面机制,实现了整个网络的“零”配置运行和即插即用功能。
商用设备与标准同时发布,能商用才是真标准
据悉,GSE1.0产品基于现有芯片最大限度地支持GSE新技术,优化网络性能。目前,已在中国移动智算中心(哈尔滨)1.8万卡集群实现大规模商用,成功将训练过程中的通信时间占比缩短20%以上,达到了国际先进水平。
同时,本次还发布了支持千卡GPU集群的GSE2.0交换机产品,由中国移动与合作伙伴合作研发,具备全量GSE-N2N能力,支持报文容器(PKTC)转发、全局动态调度队列(DGSQ)以及快速检测和保护倒换能力,性能相比传统RoCEv2有50%以上提升。
立足中国原创,面向全球开放
以太网已成为新一代智算中心网络技术的发展方向。目前,全球范围内有两个具有影响力的技术方案:一个是由美国公司主导的超级以太网联盟(UEC),另一个是由中国公司主导的全调度以太网推进计划(GSE)。这两个组织都吸纳了主流的国内外运营商、互联网服务提供商、芯片制造商和设备供应商,旨在打造标准开放、合作共赢的技术体系。
需要特别强调的是,UEC和GSE的成立顺序。许多人误认为我国在智算领域落后于美国,因此认为GSE可能落后于UEC。然而,事实恰恰相反。2023年5月,中国移动联合10余家中国企业率先发布了全调度以太网技术架构(GSE)白皮书,标志着GSE技术的确立。而超级以太网联盟(UEC)则是在几个月后才成立。
在2023中国算力大会上,GSE推进计划正式启动,起始就坚持标准开放,国际化运行,其成员不仅包括中国信通院、中国联通、腾讯、华为、中兴、锐捷、新华三、盛科、云豹智能、鹏城实验室、紫金山实验室、清华大学、北京邮电大学、燧原科技等国内产学研机构,还吸纳了博通、Intel、思博伦、是德科技等国外科技公司,成员总数已超过50家。
小芯片大集群,解决国产工艺难题
与传统智算中心组网方式不同,传统组网中接入交换机(GSP)的上行链路带宽通常需大于或等于下行链路带宽。例如,200G的下行链路连接服务器网卡,而400G的上行链路连接GSF。然而,在GSE组网中,上行链路带宽(100G)小于下行链路带宽(200G)。这是因为在GSE网络中,数据流不再简单地汇聚到单一上行链路进行转发,而是通过细粒度的报文容器转发和负载均衡机制,将同一流的报文“拆分”到多个上行链路进行转发。
在保持上行链路总带宽不变的情况下,通过降低上行端口速率来增加链路数量,不仅可以提升多路径的数量,使网络负载更加均匀,还能扩展spine的连接数量,从而提升组网规模。在相同芯片容量的条件下,当上行链路从一个400G拆分为四个100G时,GPU组网规模可提升至四倍。这使得GSE在相同芯片容量下,相较于传统RoCE技术,GSE可提供更高的规模扩展能力。
展望
智算中心网络涉及网络芯片、网卡芯片及网络设备等多个系统,依赖于AI技术和上下游企业的协同创新,体系庞杂。GSE的全球合作伙伴正在积极构建完善的产业生态,原生支持GSE的DPU商用芯片即将发布,同时超大容量的GSE以太网交换芯片也已启动研发。这将加速GSE技术的商用部署,以满足未来超十万卡智算集群的建设需求。