中兴通讯陈新宇：新互联AI服务器，解锁智算新境界

在最近举行的中国移动合作伙伴大会上，中兴通讯副总裁陈新宇展示了公司最新推出的新互联AI服务器。这款服务器突破单节点算力瓶颈，旨在应对AI大模型训练中的通信带宽和时延挑战，并在算力提升和扩展性方面展现了领先的技术创新。以下是陈新宇与记者之间的深度对话。

记者：中兴通讯最近推出了新互联AI服务器。首先，请您谈谈中兴通讯为什么要推出这款服务器？这对AI大模型训练有何意义？

陈新宇：在人工智能领域，大型模型的参数规模正在以惊人的速度扩张，其增长速度呈指数级上升，这对计算能力提出了前所未有的挑战。传统的计算架构已无法满足这些不断增长的需求，尤其是在进行跨节点并行训练时，通信带宽和延迟问题变得尤为严峻。中兴通讯针对这一挑战推出了新互联AI服务器，其设计理念是通过增加单节点内GPU的数量和优化内部通信带宽，有效减轻跨节点通信的瓶颈，从而显著提高大模型训练的效率。

记者： 中兴通讯的新互联AI服务器在哪些方面实现了创新？能否详细阐述其设计理念与传统服务器的区别？

陈新宇：相比于传统服务器，我们的新互联AI服务器在计算密度和网络带宽上实现了显著创新。该AI服务器的GPU互连带宽高达800GB/s，支持高达16卡的扩展能力，相较于传统的8卡服务器，其计算能力翻倍，为大模型训练提供了强大的支持。同时，它采用模块化设计，使升级变得极为简便，客户无需更换整个服务器主机，只需将现有的8卡GPU模块替换为16卡GPU模块。此外，我们的GPU模块设计遵循OCP UBB2.0标准，确保系统的兼容性和未来的扩展性。此外，我们还提供整机柜扩展、一体化交付及智能运维等综合解决方案，旨在帮助客户提升运维效率并降低总体拥有成本。

记者： 能否为我们解释一下“新互联”技术的核心理念？它如何促进AI大模型训练效率的提升？

陈新宇：“新互联”技术的核心理念在于突破传统GPU服务器的通信限制，通过高带宽域（HBD）解决大模型训练中面临的网络带宽和时延问题。当前，国内的GPU服务器通常采用点对点Full Mesh互联架构，虽然能够提供高带宽和低延迟，但其扩展性受限，特别是在大模型训练中，最多只能支持单机8张GPU卡。为满足超大规模参数模型的训练需求，我们创新推出了OLink交换技术，实现GPU之间的高速互联。这种“新互联”技术将GPU的通信模式从点对点互联升级为交换互联，显著提升了系统的扩展性，同时有效降低了GPU之间的通信延迟。通过OLink技术，我们可以在单个节点内支持16张以上的GPU扩展，并且能够进一步扩展到机间互联，打造更大规模的高带宽域，为构建更高密度的超节点奠定了坚实的基础。

记者：在GPU互联领域，开放标准的重要性日益凸显。您如何看待OLink技术采用开放标准对行业发展的影响？

陈新宇：传统的GPU互联总线协议由于封闭性，限制了不同厂商设备之间的兼容性，增加了技术升级和维护的难度。中兴通讯的OLink技术基于开放标准，促进了多厂商生态的共建，企业可以更加灵活地选择硬件设备和技术方案，提升系统扩展性和灵活性。通过OLink互联协议和大容量交换芯片，我们实现了机内及机间的统一高速互联，简化了智算集群的组网复杂度，提升了系统扩展能力和性能，使AI模型训练更加高效。开放的OLink总线协议有助于不同厂商设备的无缝接入，推动了智算领域的多样化发展，并为企业在大模型训练中提供了更高的性价比。

记者： 中兴通讯推出的新互联AI服务器适用于哪些行业或应用场景？

陈新宇: 新互联AI服务器设计初衷是为了满足多行业对高性能AI计算的需求。它不仅适用于电信运营商，还广泛适用于互联网企业、政府机构、科研院所，以及任何需要进行大模型训练和推理的场景。在处理千卡、万卡级别的大规模集群计算任务时，新互联AI服务器能够提供强大的算力支持，满足市场对AI计算能力不断增长的需求。展望未来，我们将继续扩大超节点的规模，并推出更多基于OLink技术的创新产品，以推动AI技术的产业化和广泛应用。

通过本次采访，我们看到中兴通讯的新互联AI服务器不仅在硬件架构上实现了突破，同时在软件与工程能力方面展现出卓越的创新潜力。中兴通讯正以其创新的技术实力，为AI的未来开辟新的道路。随着技术的持续进步和市场的日益成熟，新互联AI服务器将解锁智算新境界，为各行各业带来更高效、更智能的智算体验，推动AI技术向更深层次的应用发展，加速数智化转型的步伐。

中兴通讯陈新宇：新互联AI服务器，解锁智算新境界

相关

扫二维码关注C114微信