2024-10-31 09:38

数十亿美元增长背后——NVIDIA重塑全球AI网络格局

在惊叹于 AI 算力的迅猛增长时,我们不禁会想到那个经典的哲学问题:是先有鸡还是先有蛋?换句话说,是 AI 的崛起成就了 NVIDIA,还是 NVIDIA 的创新推动了AI市场的蓬勃发展?

这个问题的答案,或许可以从 NVIDIA 创始人兼首席执行官黄仁勋的理念中找到线索。他曾说过最喜欢的是“Zero-Billion-Dollar Markets”——那些尚未被满足的需求、有待解决的问题,都具备成为这一市场的潜力,而这也会促使他去思考,如何以全新的方式去创造市场而不是在已有的市场中简单迭代。事实证明,NVIDIA 正是通过革命性的 GPU,将 AI 应用从概念落地,并转变为繁荣且潜力无限的产业,从而证明了技术创新对塑造市场的关键作用。

当前,生成式 AI 的兴起带来了新的挑战和机遇。随着 AI 大模型参数规模的不断扩大,GPU 集群的急剧扩张对网络通信提出了更高要求。面对传统以太网在大规模 AI 算力集群中的捉襟见肘,NVIDIA 率先推出了专门面向 AI 的以太网,不仅提升了算力集群的性能和效率,更是在 AI 算力网络市场开辟了新的战场。

AI 的爆发驱动了以太网的变革,是否预示着又一个“Zero-Billion-Dollar Markets”的诞生?日前,NVIDIA 网络高级副总裁 Gilad Shainer 接受了与非网采访,分享了他对 AI 以太网变革的洞见,以及 NVIDIA 在这一领域的战略布局和未来愿景。

AI“运力”变革——生成式 AI 发展的关键

在生成式 AI 的迅猛增长下,行业面临着一个关键转折点:网络技术的变革。这是因为在超大规模 GPU 集群中,网络“运力”和 GPU“算力”共同构成了集群的整体性能,只有二者都达到高性能时,才能实现计算性能和效率的最大化,AI 集群才能发挥出最大的效力,实现高效的数据处理和智能计算。这也意味着,这场变革不仅关乎技术进步,更关乎整个行业如何重新定义网络在推动业务创新和数字化转型中的作用。

随着 AI 工作负载的增长,特别是大语言模型和其他基础 AI 模型的发展,数据中心网络技术正经历着革命性变化。以 AI 工厂和 AI 云为代表的新型数据中心逐渐成为主流,它们专为 AI 工作负载量身定制,加速计算和高性能网络在这里至关重要。

从所面向的应用场景来看,AI 工厂是 NVIDIA 面向大规模、大算力、高性能 AI 场景下,基于其 NVLink+InfiniBand 无损网络架构所实现的新型 AI 数据中心,一些成功的大语言模型都基于这一网络架构;而 AI 云则需要响应客户在云环境中构建其生成式 AI 或 AI 工作负载的需求,这一场景具有典型的多租户、工作负载多样性等特点。

据 Gilad Shainer 分享,近一半已经部署的 AI 云,在计算网络上采用的是传统以太网。另据 IDC 数据显示,目前面向数据中心的网络交换机市场中,85% 以上的产品依然采用以太网技术。

过去数十年以来,传统以太网凭借兼容性、成本效益、灵活性和多租户场景支持等优势,已经成为各行业网络基础设施的核心,广泛应用于数据中心和企业网络。

然而,随着 AI 应用的快速发展,生成式 AI 对低延迟、高带宽、无限可扩展和高可靠性等根本需求,恰恰是传统以太网难以满足的。它作为有损网络,固有的短板包括:更高的交换机延迟;分割缓冲交换机架构,而这可能会导致带宽分配不公平;针对 AI 工作负载生成的大象流,基于传统 ECMP 的负载均衡策略面临优化挑战;此外还有性能隔离和多业务噪声问题等等。

在实际的 AI 工作负载中,这会引起一系列性能和效率问题,例如:如果出现链路故障,可能会导致集群的 AI 性能减半;交换机带宽分配不均导致有些业务的延迟增加,最终导致性能瓶颈,进而阻碍业务决策,特别是在金融行业中的高频交易和风险管理,以及医疗领域的远程诊断和紧急响应等应用场景中;此外,在应对计算密集型任务时,传统以太网制约了数据中心的扩展和服务效率;并且,AI 应用的多样化和多租户环境,也要求网络提供更灵活的配置和性能隔离。

面对传统以太网的种种掣肘,NVIDIA 率先对其发起变革,这也正是 NVIDIA Spectrum-X 以太网网络平台的诞生背景。

作为全球首个专为 AI 打造的以太网架构,Spectrum-X 可以提供端到端 400Gb/s带宽,将生成式 AI 网络性能提升至传统以太网的 1.6 倍,并提供一致且可预测的结果。这一创新不仅扩展了 NVIDIA 业务的触及范围,更重要的是,它为企业客户解锁了分布式 AI 加速计算的更大潜能,推动业务向更高效率和更广阔的可能性迈进。

目前,NVIDIA 在网络领域的战略布局正在收获显著成效。据其 2025 财年 Q2 财报,网络收入环比增长 16%,其中,AI 以太网收入(包括 Spectrum-X 端到端以太网平台)环比翻一番。并且,Spectrum-X 平台获得了 OEM 和 ODM 的广泛支持,并被云服务商、GPU 云提供商和企业广泛采用。

Gilad Shainer 透露,Spectrum-X 正在批量交付中,有望在一年内成为一个价值数十亿美元的产品线。同时,NVIDIA 正在不断优化供应链策略,以满足市场的旺盛需求。未来,NVIDIA 计划每年推出新一代 Spectrum-X 产品,通过提供更高的带宽、更多的端口以及增强的软件功能集和可编程性,来推动 AI 以太网网络性能的持续领先。

专为生成式 AI 而生的 Spectrum-X

Spectrum-X 以 Spectrum SN5600 交换机和 BlueField-3 SuperNIC 为核心,通过无损网络与 RDMA、动态路由、拥塞控制等创新,不仅实现了最大带宽和业务噪声隔离,更为数千个并发的AI任务提供了可预测的结果。以下是 Spectrum-X 面向 AI 应用的核心技术:

∙无损网络技术和 RDMA(远程直接内存访问)革新了数据传输,为 AI 负载提供了快速、直接的数据访问能力,提高了传输效率。这一技术特别适合对性能要求极高的 AI 应用。

∙动态路由和基于包的负载分担技术,有效解决了 AI 工作负载产生的大象型数据流的负载均衡问题,这些数据流容易导致网络拥塞和延迟。Spectrum-X 通过端到端的动态路由和基于数据包的负载均衡,为 AI 和数据密集型应用提供了高性能、低延迟和无限可扩展的网络环境。

∙拥塞控制为多租户 AI 云环境提供了高效、低延迟的网络控制策略。通过硬件遥测技术,Spectrum-X 端到端解决方案能够快速响应网络拥塞,实现实时流量控制,避免了传统方法中可能出现的高延迟和数据包丢失问题。

∙在性能隔离和安全方面,Spectrum-X 平台的 Spectrum-4 在交换网络上和 BlueField-3 SuperNIC 和 DPU 端侧提供了全面的解决方案。具备了硬件级的安全功能,BlueField-3 DPU 在端侧能够实现全线速的数据处理和加解密,同时保持业务的高性能。BlueField-3 SuperNIC 和 Spectrum-4 交换机的配合在以太网上率先实现了多任务性能隔离,确保了多用户和多应用环境下的可预测性能,这对于 AI 云服务的稳定性和安全性至关重要。

除了平台本身的性能和效率提升,Spectrum-X 还提供  NVIDIA 加速软件和软件开发套件(SDK),使开发人员能够构建软件定义的云原生 AI 应用。这种端到端的功能交付,可以减少基于 transformer 的大规模生式 AI 模型的调试和运行时间,助力网络工程师、 AI 数据科学家和云服务商及时取得更好的结果,并更快做出决策。

对于 Spectrum-X 的突破,Gilad Shainer 指出,“如果没有端到端的全栈式创新,Spectrum-X 的能力将无从谈起。”

不仅如此,NVIDIA Spectrum-X 网络平台具有高度的通用性,确保了 Spectrum-X 能够无缝集成到现有网络基础设施中,这不仅降低了部署成本和复杂性,也为未来在 AI 场景中大规模使用以太网解决方案奠定了基础,为 AI 网络解决方案市场的爆发提供了动力。

迅速崛起的 AI 以太网生态

考虑到基于以太网部署是生成式 AI 的趋势之一,NVIDIA 将会持续推进服务器节点内外的网络优化和创新。

现有 AI 大模型系统的网络互连技术主要分为两类,一类是纵向扩展(Scale-up),主要是一个计算节点内部不同加速卡之间的互连或者一定量的加速卡组成一个超高性能的共享内存的系统;一类是横向扩展(Scale-out),主要指不同计算节点之间的互连或者多个 Scale-up 组之间的互连。

NVIDIA 的纵向扩展网络目标正是利用超快 NVLink 网络使数个直至数百个  GPU  之间实现算力和内存的池化,成为一个“巨大的 GPU”。如果在此基础上继续扩展到更大规模,就需要进行横向扩展,可以采用 NVIDIA Quantum-X800 InfiniBand 和 Spectrum-X 以太网等高性能网络。

“这种将 NVLink 与 InfiniBand 或 Spectrum-X 相结合的方法,对基于领先的 NVIDIA 计算架构的系统部署、实现前所未有的 GPU 规模至关重要”,Gilad Shainer 强调。他以法国云服务提供商 Scaleway 为例,介绍了 NVIDIA 如何通过高性能 GPU 和网络平台帮助其应对生成式 AI 的挑战。

具体而言,Scaleway 将 HGX Hopper GPU 服务器纳入其 GPU 集群阵容,利用大规模 GPU 集群的速度和效率来加速 AI 分布式工作负载;在横向扩展的AI网络方面,Scaleway 部署了 Spectrum-X 网络平台。也正是通过采用 NVIDIA 的综合解决方案,Scaleway 有效增强了 AI 计算能力并缩短了 AI 模型训练时间,同时加速了 AI 解决方案的开发、部署和上市时间。

目前,Coreweave、GMO Internet Group、Lambda Labs、Scaleway、STPX Global 和 Yotta 等云服务提供商和企业正在采用 Spectrum-X 平台,为其 AI 基础设施带来更高的网络性能。此外,NVIDIA OEM 合作伙伴正在提供基于 Spectrum-X 的全栈解决方案,ODM 合作伙伴正在将 BlueField-3 SuperNIC 集成到他们的系统中,并通过 NVIDIA 的参考架构提供 Spectrum-X 解决方案。

为了应对云服务提供商在构建 AI 云、使用加速计算技术和高性能网络支持 AI 业务方面的挑战,NVIDIA 正在通过持续的生态系统建设来推动 Spectrum-X 平台部署,支持更广泛的生成式 AI 应用落地。

GPU 之后,下一个“Zero-Billion-Dollar Markets”?

根据 IDC 预测,生成式 AI 数据中心以太网交换机市场将以 70% 的年复合增长率增长,从 2023 年的 6.4 亿美元增长到 2028 年的 90.7 亿美元。这一预测不仅进一步证明了 Spectrum-X 平台的前瞻性,也彰显了它在未来市场中巨大的商业潜力。

如今,从金融到医疗,从工业到媒体娱乐,各行业都在寻求通过 AI 技术提升业务效率和创新能力。NVIDIA Spectrum-X 平台不仅突破了传统以太网的瓶颈,显著提升了网络性能和效率,更重要的是,它引领了行业对网络技术的重新思考,确保以太网在生成式 AI 时代仍然是一种可靠且面向未来的技术,为 AI 基础设施的未来发展奠定基础。

根据 NVIDIA 今年的预测,全球数据中心基础设施的安装基数在未来五年内有望翻一番,这将带来每年数千亿美元的市场机会。

生成式 AI 带来的深远影响才刚刚开始,越来越多的行业在加入生成式 AI 的阵营。正如开篇所讨论,NVIDIA 总是希望通过技术创新塑造市场,Spectrum-X 已经展现出了这一潜力,而这也将助推 NVIDIA 站上一个新的万亿美元市场的台阶,引领 AI 技术的又一次飞跃发展。

来源:厂商供稿

相关

网络以太网转型交换机财报
本评论 更新于:2024-11-24 1:13:41
在C114 APP中与业内人士畅聊通信行业热点话题!