Omdia观察：AI爆发推动数据中心网络进入超级计算时代

C114讯 9月5日消息（艾斯）市场研究公司Omdia在一份最新报告中写到，人工智能（AI）的指数级增长正在引领全球数字化转型。AI的发展引发了电信服务提供商对其传统数据中心网络（data center networking,DCN）基础设施进行现代化升级的研究，以确保所有新的网络AI、进行AI升级的企业以及家庭消费者应用程序的安全、无阻塞、高吞吐量和无损性能。

在AI现代化网络的所有挑战中，构建安全、更大规模、多计算、高性能和无损的DCN结构，是服务提供商在AI时代取得成功的关键和必要条件。

分析师观点

预计用于训练AI模型的数据密集型计算场景每天都在增加。转发庞大的AI流量很容易造成网络负载失衡和数据差异。服务提供商认为，大量的路由跳点、低吞吐量和低性能的传统数据中心网络，是处理AI模型数十亿甚至数万亿数据参数大样本的绊脚石。

AI技术的突飞猛进要求进入一个超级算力时代，对高网络带宽和高效网络的设计要求也越来越高。这种高效组网涵盖了GPU加速网络服务器规模从数十万到数百万节点的增长，通过升级400GE/800GE互连超融合以太网DCN结构和网络规模负载平衡（NSLB）来加速生成式AI和大语言模型（LLN）量化的实现，从而将延迟降低至纳秒级。

NSLB，也被称为负载均衡器，对电信行业来说是一项并不陌生的技术，但它将在AI时代低延迟的训练场景中发挥关键作用。NSLB在瞬时和意外的流量峰值以及提高AI训练效率方面实现了100%的网络流量负载均衡，通过防止流量冲突和提高AI训练带宽来提供设备策略。

思科、华为、诺基亚、瞻博网络（Juniper）、中兴通讯等Tier-1 IP系统供应商，通过提出以下问题来指导服务提供商实现网络现代化：

·AI时代对DCN灵活性的主要要求是什么？

·服务提供商如何将其传统平台迁移到400G/800G？

·超级计算或高性能计算服务如何实现零网络延迟？

·如何确保更高的性能、更高速度下的超可靠性以及多层次路径的可视化智能运维？

·数据中心交换机（400GE/800GE）和转发互连的最大接口速率是多少，这将有助于将微秒级延迟降低至纳秒级？

·如何将带宽利用率提高到95%-98%，以实现严苛的AI训练效率？

·如何缩短跨数据中心的数据同步通信时间？

·如何在AI分布式训练集群的效率中提高GPU计算时间比的有效性？

·在跨多个目标服务器分配网络流量时，NSLB在实现AI训练性能的超可扩展性和超高性能方面潜力如何？

·与TCP/IP堆栈相比，远程直接内存访问（RDMA）如何用于大规模数据交互？

Omdia资深首席分析师Sameer Ashfaq Malik表示，总之，随着AI的出现，IP网络正在发生变革。很明显，AI对IP DCN网络有着严苛的要求，任何数据丢包都会极大地影响AI的训练模型。服务提供商希望释放AI的这种驱动力，以更高性能的矩阵来管理和运营复杂的IP网络，并保护网络免受复杂威胁漏洞的侵害。从2024年起，我们将看到Tier-1 IP系统巨头在快速发展的AI时代如何成功证明其网络设备可确保无阻塞计算和降低延迟。

Omdia观察：AI爆发推动数据中心网络进入超级计算时代

相关

扫二维码关注C114微信