新型智算中心组网方案研究

本文版权为《邮电设计技术》所有，如需转载请联系《邮电设计技术》编辑部

摘要：当前算力需求爆发式增长，通用计算也朝着人工智能计算的方向演进，新型智算中心网络作为算力间数据交互的中心，成为影响算力性能发挥的关键。分析了智算中心对网络的需求，对网络协议、架构和运维管理等方面进行了深入研究，并结合业界发展情况，给出了智算中心组网方案的建议。

关键词：智算中心；组网方案；无损网络；RDMA

doi：10.12045/j.issn.1007-3043.2024.06.005

1、智算中心的重要性及组网挑战

算力是数字经济时代的核心生产力，是推动经济发展的新引擎。随着元宇宙、ChatGPT等业务的兴起，语言处理、机器视觉、自动驾驶等多个领域借助强大的数据计算能力，取得了长足的发展。相较于传统云计算、超算中心，智算中心更能满足日益丰富的人工智能算力需求，未来80%的场景所使用的算力资源都将由智算中心承载。而参数量巨大的AI模型，对智能算力的需求飞速提升，根据IDC评估报告，2021年—2026年，中国智能算力规模年复合增长率达52.3%。例如，目前L2级别的自动驾驶通常需要数百TOPS的算力，但要想真正实现L4/L5级别的自动驾驶，至少需要20000+TOPS的算力。

受制于芯片材料、工艺、成本等因素，算力的增长速度逐渐放缓，与算力需求存在极大差异，这也推动了芯片新技术以及异构算力的发展。以 GPU、类脑芯片为代表的异构算力的崛起表明未来计算数据将在最合适的地方，以最合适的算力来处理。同时，当单台服务器的算力无法满足业务需求时，可使用分布式训练的智算集群，通过多台服务器以及算法优化的并行方式构建出一个计算能力和显存能力超大的集群，来应对大模型训练中算力和内存的瓶颈。大模型训练一般采用并行模式，连接集群的网络决定了智算节点设备间的通信效率，进而影响整个智算集群的算力性能和数据吞吐量，这对数据中心网络提出了新挑战，具体如下。

a）零丢包。智算集群对丢包十分敏感，如果网络故障不能被快速定位并传递到终端进行源端行为控制，轻则需要回退到上一个分布式训练的断点进行重训，重则可能要将整个任务从零开始重训。0.1%的丢包会使算力性能下降50%，1次训练中断会增加4 h的训练时长。因此，网络稳定性对分布式训练任务非常重要，也是当前数据中心网络的最大短板。

b）低时延。传统TCP/IP网络中，发送端给接收端发消息实际上是把发送端内存中的一段数据，通过数据中心网络传送到接收端的内存中。无论是发送端还是接收端，在报文传输过程中都需要调用 CPU，复杂的报文处理流程使CPU显得力不从心，同时造成节点间通信时间变长。

c）大带宽。在并行计算模型中，单个计算节点完成计算任务后，需要快速地将计算结果同步给其他节点，以便进行下一轮计算；而在完成计算结果数据同步前，计算节点会一直处于等待状态。在大模型并行计算中，计算节点之间同步的数据量非常大，并且大部分是瞬时脉冲流量，如果网络带宽不足，数据传输就会变慢，进而影响训练效率。

点击查看全文（PDF）>

新型智算中心组网方案研究

相关

扫二维码关注C114微信