C114讯 1月17日消息(赵婷婷)AI时代已经来临。大模型等新兴AI应用需求海量的算力支撑,一座座智算中心拔地而起,规模庞大的万卡集群逐渐投入商用。如何更好地实现智算中心互联,服务AI应用创新发展,业界做了大量研究工作。
1月16日,作为“2025中国光通信高质量发展论坛”的开篇之作,“智算中心互联:算网协同,构筑智算互联新底座”线上研讨会顺利召开。
会上,中国信息通信研究院技术与标准研究所(以下简称中国信通院标准所)所长张海懿在演讲时指出,当前,我国主管部门持续发布算力基础设施相关政策,引导算力基础设施高质量发展。AI大模型及相关应用推动智算中心向超万卡及以上集群发展,智算中心内互联、智算中心间互联、智算应用支撑等高质互联相关技术成为关注热点。接下来,她介绍了相应关键技术发展的具体情况。
智算中心内互联
张海懿指出,智算中心内互联一方面要支撑万亿及以上量级参数量大模型训练,同时还要满足超大规模组网、大带宽、超低时延、高可用性等需求。
现阶段,智算中心内互联相关协议和技术竞相发展,片间互联开放与专用模式持续竞争。智算中心内部组网以IB和基于以太网的多种方案并存方式发展,前者是以性能取胜,后者因其开放性和性价比,在 AI大模型训练组网的占比也在进一步提升。
大规模AI训练需要高效协同智算中心内软硬件资源,快速、高效、可移植的集合通信库成为影响智能计算效率的重要因素。目前国内外头部厂商主要以各自研发独有的高速集合通信库为主,整体上捆绑特定芯片。为进一步高效支撑智算部署与应用,集合通信库异构兼容或成未来趋势。
同时,大带宽需求助推高速光模块迭代加速。数据中心直调直检光模块速率约3~4年更新一代,AI智算引入后迭代周期呈现缩短趋势,当前处于800Gb/s速率为主阶段,预计未来1~2年进入1.6Tb/s速率,2030年3.2Tb/s速率将走向规模应用。在AI应用的驱动下,高速光模块应用需求持续强劲,国内外标准化布局加速向T+量级演进延伸,同时为保障互联质量,智算中心对光模块误码率等指标可能会提出更高要求。
面对低能耗和低时延等应用需求,线性驱动可插拔模块(LPO)及其应用持续研究和探索。服务器机柜间互联采用光学方式,单通道速率正在从112G向224G演进,线性方案是降低能耗的有效途径。当前112G/lane LPO应用处于探索阶段,兼容性及标准化问题有待持续研究评估,224G/lane LPO预计2025年进行互通展示,考虑到性能和能耗的均衡等问题,预计224G/lane可插拔方案倾向于线性接收可插拔光模块(LRO)的可能性较大。
除此之外,芯片级光互联提供高密度低能耗互联新方案。芯片级光互连相较电互连或传统可插拔模块互连方式,具有大带宽、低能耗、高集成等诸多优势。片间光互联中,CPO主要用于交换网络,OIO主要用于算存网络,近期AI集群发展推动OIO热度迅速上升。目前,全球领先的硅光平台依托其强大的芯片加工制造和先进封装能力,在芯片级光互联方面不断取得新突破。
另外,从目前发展情况来看,智算与光互联双向赋能,光互联作用日益凸显,光进铜退趋势进一步持续,但短距的电互联依靠其高可靠与低成本等特点,生命力依旧旺盛。另外,考虑能耗、灵活性和可靠性等大模型训练及推理需求,智算中心内的全光交换组网和连接可靠性成为业界的持续关注点。
智算中心间互联
智算中心间互联的典型需求是长距离、高吞吐量、算间高效协同等,需要通过长距无损、极低故障率的互联能力来支撑构建分布式智算集群。目前发展情况如下:
一是大带宽、低时延和高可靠需求凸显。智算多集群分布式训练可期,算间互联业务需求包括距离相近的多个智算中心间互联、大规模枢纽算力节点间的互联以及边缘与核心云之间的互联与协同,来实现分布式训练、训练推理协同、数据搬运等场景。同时,多种应用需要高质量的互联,包括大规模枢纽算力节点间的数据中心互联、相近物理位置多数据中心间互联、以及边缘与核心数据中心间协同等。
二是智算分布式训练应用试验加速探索。现阶段多家已经开展智算分布式训练实验/试验,但是分布式应用仍面临多重技术挑战,例如广域网络性能需求、运维管控复杂性、建网成本等都是制约因素,需要在多层多域单点技术突破、跨层跨域多技术协同融合等方面持续推进技术创新。
三是干线启动400G规模部署,城域推动800G+逐步试验。目前400G技术体系基本完善,我国运营商逐步启动干线场景规模部署,目前400G系统中的 WSS、OTU已实现C+L波段一体化设计, 但一体化OA技术方案仍在探索验证之中。对于更高速率的传输技术,业界加快800G/1.6T技术标准研制,OIF和ITU等标准化组织正在开展相关项目研究工作,产业界也已经启动试点验证。
四是新型光纤加速助力构建高质量网络。一方面,G.654.E等超低损光纤成为智算中心间互联应用优配,适配400G及以上超高速长距离、C+L多波段大容量等应用,支撑优质互联需求,是网络传输性能提升的关键;另一方面,空芯光纤拥有诸多优势,发展潜能可期,目前仍需突破制备工艺、工程部署等诸多难题,后续发展仍需业界持续加强协同,助力锻造未来超低时延算力网。
智算应用支撑
智算业务支撑方面,主要包括入算和端到端协同管控等功能。全光接入为用户提供灵活品质入算,主要包括家庭园区万兆全光入算、中小企业便捷一跳入算、大企业高品质专线入算等。同时,通过端到端协同管控助力用户快速入云入算。在接入侧,进一步增强用户感知能力;
在数据中心互联侧,实现基于意图的智能化管控;在数据中心网络侧,实现整个的数据中心网络和数据中心互联的协同。整体来看,用户入算及智算训练等业务调度需要算网协同管控,综合考虑用户、组网以及算力提供者多方因素,在任务需求与算网资源综合约束下,对多层级设备进行弹性统一调度,在用户和算力服务之间动态按需建立连接。
另外,网络大模型成为网络自智迈向L4,甚至是更高阶的关键技术。运营商、设备/软件商纷纷布局网络大模型,利用大模型高效的理解和生成能力增强网络自智能力,加速智算网络自智能力迈向高阶自智L4。
张海懿最后表示,中国信通院标准所将持续开展智算中心互联相关技术产业发展、算力网络性能监测、算力接入1ms城市行动计划等工作,希望与业界一道协同构建我国智算互联网络技术产业创新发展新生态,助力我国光通信行业高质量发展。