2024-9-5 09:33

Omdia观察:AI爆发推动数据中心网络进入超级计算时代

C114讯 9月5日消息(艾斯)市场研究公司Omdia在一份最新报告中写到,人工智能(AI)的指数级增长正在引领全球数字化转型。AI的发展引发了电信服务提供商对其传统数据中心网络(data center networking,DCN)基础设施进行现代化升级的研究,以确保所有新的网络AI、进行AI升级的企业以及家庭消费者应用程序的安全、无阻塞、高吞吐量和无损性能。

在AI现代化网络的所有挑战中,构建安全、更大规模、多计算、高性能和无损的DCN结构,是服务提供商在AI时代取得成功的关键和必要条件。

分析师观点

预计用于训练AI模型的数据密集型计算场景每天都在增加。转发庞大的AI流量很容易造成网络负载失衡和数据差异。服务提供商认为,大量的路由跳点、低吞吐量和低性能的传统数据中心网络,是处理AI模型数十亿甚至数万亿数据参数大样本的绊脚石。

AI技术的突飞猛进要求进入一个超级算力时代,对高网络带宽和高效网络的设计要求也越来越高。这种高效组网涵盖了GPU加速网络服务器规模从数十万到数百万节点的增长,通过升级400GE/800GE互连超融合以太网DCN结构和网络规模负载平衡(NSLB)来加速生成式AI和大语言模型(LLN)量化的实现,从而将延迟降低至纳秒级。

NSLB,也被称为负载均衡器,对电信行业来说是一项并不陌生的技术,但它将在AI时代低延迟的训练场景中发挥关键作用。NSLB在瞬时和意外的流量峰值以及提高AI训练效率方面实现了100%的网络流量负载均衡,通过防止流量冲突和提高AI训练带宽来提供设备策略。

思科、华为、诺基亚、瞻博网络(Juniper)、中兴通讯等Tier-1 IP系统供应商,通过提出以下问题来指导服务提供商实现网络现代化:

·AI时代对DCN灵活性的主要要求是什么?

·服务提供商如何将其传统平台迁移到400G/800G?

·超级计算或高性能计算服务如何实现零网络延迟?

·如何确保更高的性能、更高速度下的超可靠性以及多层次路径的可视化智能运维?

·数据中心交换机(400GE/800GE)和转发互连的最大接口速率是多少,这将有助于将微秒级延迟降低至纳秒级?

·如何将带宽利用率提高到95%-98%,以实现严苛的AI训练效率?

·如何缩短跨数据中心的数据同步通信时间?

·如何在AI分布式训练集群的效率中提高GPU计算时间比的有效性?

·在跨多个目标服务器分配网络流量时,NSLB在实现AI训练性能的超可扩展性和超高性能方面潜力如何?

·与TCP/IP堆栈相比,远程直接内存访问(RDMA)如何用于大规模数据交互?

Omdia资深首席分析师Sameer Ashfaq Malik表示,总之,随着AI的出现,IP网络正在发生变革。很明显,AI对IP DCN网络有着严苛的要求,任何数据丢包都会极大地影响AI的训练模型。服务提供商希望释放AI的这种驱动力,以更高性能的矩阵来管理和运营复杂的IP网络,并保护网络免受复杂威胁漏洞的侵害。从2024年起,我们将看到Tier-1 IP系统巨头在快速发展的AI时代如何成功证明其网络设备可确保无阻塞计算和降低延迟。

作者:艾斯   来源:C114通信网

相关

网络转型DCN服务器融合
本评论 更新于:2024-11-9 18:19:06
在C114 APP中与业内人士畅聊通信行业热点话题!