C114讯 3月20日消息(九九)在AI大模型爆发式增长的当下,算力成为推动社会进步的重要引擎。然而,随着智算集群规模的不断扩大,“存力”与“运力”的瓶颈日益凸显,成为制约算力效率释放的关键因素。

近日,中科曙光发布全栈自研400G无损高速网络scaleFabric,以原生RDMA技术突破填补国内数据中心高速网络空白。其背后是中科曙光以全栈芯片级国产化能力,构筑的“算存传一体化”紧耦合架构。通过将“超级隧道”技术与自研RDMA网络深度结合,为超大规模智算集群提供高效、安全、稳定的数据供给。
围绕算存传一体化架构、国产化技术优势、液冷与生态落地等核心问题,C114采访了曙光信息产业(北京)公司总裁助理、分布式存储产品部总经理石静,scaleFabric产品经理纵瑞博,解码曙光如何以全栈自研能力,重构智算中心数据存储和流转新范式。
直击痛点:从“堆砌算力”到“存算传强协同”
“当前AI基础设施面临的最大挑战,不是单一堆砌算力卡,而是计算、存储、网络三者无法强耦合,导致投资回报率大打折扣。”石静开门见山地指出行业共性难题。
从算力侧看,大量GPU/国产算力卡部署后,因数据供给跟不上,算力利用率长期偏低;从存储侧看,传统存储无法匹配算力的高速带宽、IOPS与时延需求,成为数据流转瓶颈;从运力侧看,网络不仅要自身技术领先,更要承担计算与存储的“连接者”角色,三者割裂直接导致AI集群效率下滑。
这也是曙光坚定推进算存传一体化紧耦合架构的原因——不是物理上把计算、存储、网络集成在一台设备,而是在物理分离的基础上,实现逻辑层的深度协同,让数据“跑得起、跑得稳、跑得通”。
打破I/O瓶颈:超级隧道+400G自研网络
在AI训练和推理场景中,海量数据需要在计算节点与存储系统之间持续流动,若存储与网络适配不足,极易出现网络拥塞或资源竞争,拖累算力利用效率。
曙光通过“超级隧道”技术构建专属数据通道,并与自研RDMA高速网络深度适配。石静解释称,“超级隧道”相当于为数据搭建专属高速公路:硬件层面以CPU为核心,将线程、内存、高速网络、SSD等资源划入独立数据域,配置独享RDMA网络连接与PCIe通道;软件层面,通过将高速网卡虚拟成多个小网卡,实现数据稳定、均衡传输,从根源解决网络拥塞、PCIe通道竞争、CPU/内存带宽饱和等深层问题
纵瑞博补充说,相比传统RoCE,scaleFabric基于Credit-Based流控机制,先确认接收端空闲再传输,真正实现零丢包、低时延、高稳定。另外,曙光还针对大集群内存分配做了深度优化,采用“预先分配+动态共享”模式,避免计算与存储资源的浪费,保障万卡级集群稳定运行。
三大核心优势:性能强悍、全栈国产化、全栈液冷
在RDMA+全闪成为行业共识的背景下,曙光的差异化竞争力体现在极致性能与全栈国产化。在性能方面,曙光全闪存储节点可实现220G带宽、1000万IOPS,单节点能支撑数十块GPU算力卡,大幅缩短GPU数据等待时间,让算力专注于计算本身;在国产化方面,曙光scaleFabric从112G SerDes IP、硬件设备到管理软件100%全栈自研,是国内首款原生RDMA 400G无损网络。
谈及scaleFabric研发最难的环节,纵瑞博坦言,112G SerDes IP是核心突破点。作为网络底层的关键技术,112G SerDes当前为全球主流方案,曙光从零起步,历时三年直接跨越至112G,跳过25G、56G迭代阶段,实现国产高端高速网络的技术追赶。
此外,高密度智算集群带来的散热与能耗压力已成为行业刚需。曙光早在2022年底就发布国内首款液冷存储,现今打造的“液冷存储+液冷计算+液冷IB交换机”全栈液冷方案,实现全组件、全链路协同优化。
石静介绍,曙光液冷方案可以满足不同用户需求:大型新建算力中心通过一体化液冷部署,整体PUE可低至1.1,远低于行业平均水平;风冷改造项目以华南理工大学案例为代表,已稳定运行3-4年,显著降低能耗水平;小型体验场景可部署单机柜风液转化模块,低成本试水液冷。
尽管全栈液冷初期部署成本高于风冷,但长期TCO(总拥有成本)优势明显,兼顾绿色低碳与算力稳定性。
极速部署:3万卡集群36小时上线
国产化方案的生态兼容性与部署效率,是用户最关心的问题之一。纵瑞博表示,scaleFabric完全兼容IB生态,用户原有脚本无需修改即可切换;管理工具与开源工具兼容,运维零门槛。

最具说服力的是落地效率,在国家超算互联网核心节点试运行的3套scaleX万卡超集群,从首台交换机上电到业务上线仅用36小时,已稳定运行一个半月,没有发生一次因网络导致的业务波动。而同等规模的RoCE集群部署,至少需要1-2周。
从400G无损网络突破,到算存传一体化架构,再到全栈国产化与全栈液冷,曙光正重新定义智算中心的“数据供给能力”。在AI算力竞争白热化的当下,曙光以“算力高效、存力稳定、运力无损”的全栈方案,为国家超算互联网、大模型训推、关键行业数字化提供了可规模化落地的中国方案。
面向未来,两位受访人表示,曙光已在规划更高带宽、更低时延的多模态交换机与网卡,持续跟进前沿技术趋势,加速国产智算从“补短板”到“建长板”的跨越。

