2026-4-16 08:30

吉瓦级AIDC,字节跳动怎么玩?

00:00 00:00

120万亿,这是字节跳动旗下豆包日均Token消耗量(截至2026年3月)。

这个数字在一年前还只是1200亿,三个月前则是63万亿;而到今年6月份,市场预测豆包日均Token消耗量将会超过240万亿。在视频生成、智能体以及企业服务的三重驱动下,这个数字还将以三个月翻番的速度持续攀升!

所有Token的背后,其实都是AIDC,无论是自建自营还是算力租赁,字节都是市场上最大的AIDC买家。字节所选择的技术路径和产品架构也是市场关注的焦点。在日前召开的“2026 Open AI Infra Summit”上,字节跳动数据中心研发和设计管理负责人井汤博带来演了一场题为《吉瓦级数据中心的技术趋势、挑战》的主题报告,详细阐述了吉瓦级数据中心的驱动力、技术趋势、挑战与应对。这也是井汤博时隔18个月之后再次发声。

驱动力

“吉瓦级”是一个功率单位,指功率达到十亿瓦特(1吉瓦=10^9瓦)的规模,常用来描述需要消耗或输出巨大能量的前沿技术设施或装备。在人工智能领域,“吉瓦级”是衡量超大规模数据中心和AI芯片集群功耗与规模的关键指标。

从全球视角,特别是从大洋彼岸来看,OpenAI和Microsoft、Meta等都开始用多园区、多吉瓦的概念去发展自己的AIDC。

从驱动力角度来看,井汤博认为有三点:一是大模型本身的爆发以及和大模型相关算力需求的增长。二是行业数字化转型,垂直行业上云,包括AI Agent以及OpenClaw等等一系列催生对Tokens大量的应用。第三,“我们现在实际的感受是,芯片和模型不是制约因素,反而是当地的政策、环保、土地电力资源会成为最后一个瓶颈,它会严重地影响到DC的建设,进而影响到业务的部署。”

技术趋势

在发言中,井汤博结合GTC,分享了他对于AIDC发展的几个趋势:

第一,先进的硬件和AI算力平台的推陈出新,会导致基础设施侧业态新的变化,比如此次推出的LPU(语言处理单元)和MGX,整个模块化GPU整体解决方案。“这两个分别代表着传统训练GPU之外结合的一种算力形式,还有就是整体以芯片为出发点向今后整合生态链,导致的一种业态模式,这两种模式都是让我们可以思考,未来到底如何应对新场景,以及新的业务范式。”

第二是关于液冷,字节在2021年开始研究液冷,2022年开始大规模落地。“我可以坦白地讲,我们主要的驱动点就是资源利用率,或者是在某些场景下TCO的最优,但是并没有说是必需项。但是现在看起来,不管是从英伟达、AMD主流厂家,还是从大家的共识,都认为液冷成为必选项,而且液冷的比例从50%、60%、70%、80%,甚至已经接近100%。液冷不仅仅是一套技术更是一套系统。”

第三就是从服务器到交换机,之前产业界更多关注于服务器相关的液冷,但是现在对于交换机,因为它的带宽和就近部署,本身交换机和内部芯片的液冷也是字节的考虑点之一。

最后就是电气架构的演进,800V已经成为兆瓦级或者是四五百千瓦以上的AIDC集群的一个选项,电器架构的液冷化,也是未来我们不可忽视的点。

挑战和应对

井汤博指出,在AIDC场景中,因为高密度和超大规模的部署,耦合度很高,势必会导致可靠性和可用性潜在的降低风险。

这个时候字节怎么做呢?架构角度,尽量采用相对分布式的架构,降低故障半径。方案角度,要相对收敛,部署更加的标准化,让运维更加的得心应手。第三用半预置或者半集成的方式,在调试和安装环节做到可控。最后就是用AI来反哺运维,来运行预测性维护和智能化调度,简而言之需要做到全生命周期的端到端,从设计、建设、测试到运营,多链路去把控,才能够让AIDC在吉瓦级做得更加可靠。

第二个挑战就是资源利用率的不足和社会责任。早期一个机房也就是十几兆瓦,一个园区也就几十兆瓦,100兆瓦已经很高了,现在一个楼宇就百兆瓦,园区都是上吉瓦,这个时候当地资源的压力、电网建设、水资源、土地资源以及对环境和周边居民、住宅区的影响就不可忽视了。

应对方案,从技术创新上就是高效的设备、先进的制冷技术,高密度解决方案,包括兆瓦级的机柜以及SIT配电,除了这些之外,还有就是用清洁燃料,对先进的能源进行回收,“在过去是一个加分项,现在我认为就是一个必选项。”

第三点就是衡量指标,这也是最大的痛点。在AIDC时代,机房与服务器之间越来越耦合化,某一个点的变化会对上层导致一个不利的变化,比如说过度地追求PUE,可能会导致对服务器的支持和综合成本的降低是一个不利的影响。井汤博倡议产业链从能源、DC、硬件、平台,到真正的模型和应用,逐渐地把壁垒打通,建立内部的横向拉通机制,同时也需要建立合理的Benchmark,一套真正可以客观量化评估体系。

第四是硬件供应链的不确定性带来的兼容和挑战,还有交付周期的影响。为什么会有不确定性?井汤博认为上下游没有打通,DC设计DC的标准,供应链有供应链的采购体系,都有自己的规划体系。产业链需要把标准化和规范化做起来,这是缓解交付和兼容性需求非常重要的一点。

来源:C114通信网

相关

AI人工智能OpenAIMicrosoft转型
本评论 更新于:2026-4-17 2:17:11
在C114 APP中与业内人士畅聊通信行业热点话题!