36小时上线3万卡集群！国产智算新基建从“补短板”走向“建长板”

C114讯 3月20日消息（九九）在AI大模型爆发式增长的当下，算力成为推动社会进步的重要引擎。然而，随着智算集群规模的不断扩大，“存力”与“运力”的瓶颈日益凸显，成为制约算力效率释放的关键因素。

近日，中科曙光发布全栈自研400G无损高速网络scaleFabric，以原生RDMA技术突破填补国内数据中心高速网络空白。其背后是中科曙光以全栈芯片级国产化能力，构筑的“算存传一体化”紧耦合架构。通过将“超级隧道”技术与自研RDMA网络深度结合，为超大规模智算集群提供高效、安全、稳定的数据供给。

围绕算存传一体化架构、国产化技术优势、液冷与生态落地等核心问题，C114采访了曙光信息产业（北京）公司总裁助理、分布式存储产品部总经理石静，scaleFabric产品经理纵瑞博，解码曙光如何以全栈自研能力，重构智算中心数据存储和流转新范式。

直击痛点：从“堆砌算力”到“存算传强协同”

“当前AI基础设施面临的最大挑战，不是单一堆砌算力卡，而是计算、存储、网络三者无法强耦合，导致投资回报率大打折扣。”石静开门见山地指出行业共性难题。

从算力侧看，大量GPU/国产算力卡部署后，因数据供给跟不上，算力利用率长期偏低；从存储侧看，传统存储无法匹配算力的高速带宽、IOPS与时延需求，成为数据流转瓶颈；从运力侧看，网络不仅要自身技术领先，更要承担计算与存储的“连接者”角色，三者割裂直接导致AI集群效率下滑。

这也是曙光坚定推进算存传一体化紧耦合架构的原因——不是物理上把计算、存储、网络集成在一台设备，而是在物理分离的基础上，实现逻辑层的深度协同，让数据“跑得起、跑得稳、跑得通”。

打破I/O瓶颈：超级隧道+400G自研网络

在AI训练和推理场景中，海量数据需要在计算节点与存储系统之间持续流动，若存储与网络适配不足，极易出现网络拥塞或资源竞争，拖累算力利用效率。

曙光通过“超级隧道”技术构建专属数据通道，并与自研RDMA高速网络深度适配。石静解释称，“超级隧道”相当于为数据搭建专属高速公路：硬件层面以CPU为核心，将线程、内存、高速网络、SSD等资源划入独立数据域，配置独享RDMA网络连接与PCIe通道；软件层面，通过将高速网卡虚拟成多个小网卡，实现数据稳定、均衡传输，从根源解决网络拥塞、PCIe通道竞争、CPU/内存带宽饱和等深层问题

纵瑞博补充说，相比传统RoCE，scaleFabric基于Credit-Based流控机制，先确认接收端空闲再传输，真正实现零丢包、低时延、高稳定。另外，曙光还针对大集群内存分配做了深度优化，采用“预先分配+动态共享”模式，避免计算与存储资源的浪费，保障万卡级集群稳定运行。

三大核心优势：性能强悍、全栈国产化、全栈液冷

在RDMA+全闪成为行业共识的背景下，曙光的差异化竞争力体现在极致性能与全栈国产化。在性能方面，曙光全闪存储节点可实现220G带宽、1000万IOPS，单节点能支撑数十块GPU算力卡，大幅缩短GPU数据等待时间，让算力专注于计算本身；在国产化方面，曙光scaleFabric从112G SerDes IP、硬件设备到管理软件100%全栈自研，是国内首款原生RDMA 400G无损网络。

谈及scaleFabric研发最难的环节，纵瑞博坦言，112G SerDes IP是核心突破点。作为网络底层的关键技术，112G SerDes当前为全球主流方案，曙光从零起步，历时三年直接跨越至112G，跳过25G、56G迭代阶段，实现国产高端高速网络的技术追赶。

此外，高密度智算集群带来的散热与能耗压力已成为行业刚需。曙光早在2022年底就发布国内首款液冷存储，现今打造的“液冷存储+液冷计算+液冷IB交换机”全栈液冷方案，实现全组件、全链路协同优化。

石静介绍，曙光液冷方案可以满足不同用户需求：大型新建算力中心通过一体化液冷部署，整体PUE可低至1.1，远低于行业平均水平；风冷改造项目以华南理工大学案例为代表，已稳定运行3-4年，显著降低能耗水平；小型体验场景可部署单机柜风液转化模块，低成本试水液冷。

尽管全栈液冷初期部署成本高于风冷，但长期TCO（总拥有成本）优势明显，兼顾绿色低碳与算力稳定性。

极速部署：3万卡集群36小时上线

国产化方案的生态兼容性与部署效率，是用户最关心的问题之一。纵瑞博表示，scaleFabric完全兼容IB生态，用户原有脚本无需修改即可切换；管理工具与开源工具兼容，运维零门槛。

最具说服力的是落地效率，在国家超算互联网核心节点试运行的3套scaleX万卡超集群，从首台交换机上电到业务上线仅用36小时，已稳定运行一个半月，没有发生一次因网络导致的业务波动。而同等规模的RoCE集群部署，至少需要1-2周。

从400G无损网络突破，到算存传一体化架构，再到全栈国产化与全栈液冷，曙光正重新定义智算中心的“数据供给能力”。在AI算力竞争白热化的当下，曙光以“算力高效、存力稳定、运力无损”的全栈方案，为国家超算互联网、大模型训推、关键行业数字化提供了可规模化落地的中国方案。

面向未来，两位受访人表示，曙光已在规划更高带宽、更低时延的多模态交换机与网卡，持续跟进前沿技术趋势，加速国产智算从“补短板”到“建长板”的跨越。

36小时上线3万卡集群！国产智算新基建从“补短板”走向“建长板”

相关

扫二维码关注C114微信