文章作者
诸葛群碧,上海交通大学长聘副教授,2024年CIOE中国光博会《智算中心光技术创新发展论坛》主席和主持人。
本文系诸葛教授基于论坛嘉宾的分享内容对智算中心光互联技术的发展现状与未来趋势的梳理和思考。
01 AI需求激增,光通信迎来又一历史性机遇
在AI大模型训练的驱动下,GPU集群的算力需求爆发式增长。光互联在构建智算中心万卡集群中起到关键作用,因此高速光模块的需求在近两年增长十分迅猛。根据Cignal AI的最新统计,2023年至今,400GbE+光模块的发货量年均增长率达到了惊人的350%,而此前数年的年均复合增长率“仅”为84%。2024年第一季度发货约350万只,预计2024年总数将超过1400万只。
AI算力驱动的另一变化是光互联代际更迭大幅加速。据Cignal AI预测,800G光模块将从2023年的100万只跃升至2024年的900+万只。随后,AI需求将快速催熟1.6T光模块的商用,预计在2028年接近甚至超过400G和800G的数量总和。另一方面,单个数据中心的供能和面积将不足以支撑AI的持续发展,因此需要建设更多的数据中心,构建跨数据中心的AI算力设施,这将促进可插拔相干光模块的需求和发展。
根据Cignal AI的数据,至2025年,400ZR相干光模块四年间增长约10倍。从2024年起,800ZR将逐渐商用并快速增长,而1600ZR的商用将从2027年开始。AI时代的到来,使光通信行业进入了又一个春天,欣欣向荣、蓬勃发展。在技术层面,过去数十年的发展已使得光互联众多技术进入了深水区,为满足AI算力的迫切需求,整个行业需要在研发上大力投入来突破一系列技术瓶颈。
02 数据中心内光互联技术
当前的商用高速光模块主要采用4×100G(400G)、8×100G(800G)、4×200G(800G)和8×200G(1.6T)的系统架构,封装形式以QSFP-DD、OSFP和OSFP-XD为主。SerDes单通道速率已达到200G,与光口实现匹配。下一阶段的主要目标是实现单波400G光互联技术,支撑构建下一代1.6T和3.2T光模块,主要技术挑战包括器件带宽、DSP功耗、链路损伤(色散、四波混频、多径串扰)等。
另一方面,由于大模型训练基于万卡同步展开,AI集群对光模块的可靠性提出了极其严苛的要求。传统模块中的半导体激光器已相对可靠,然而AI应用要求其可靠性再提高近百倍。光模块故障预测、识别、定位能力也变得十分关键。在系统层面,基于多通道并行架构的光模块,可以利用弹性通道技术,快速隔离故障通道,大幅提升针对单通道故障的可靠性。
在51.2T交换机中,光模块功耗占比接近50%,而光模块中DSP功耗占比超50%。为缓解光模块(特别是1.6T/3.2T模块)的功耗问题,业界提出了线性直驱方案(LPO),近年来受到高度关注。该方案去除了光模块中的DSP,使用SerDes中的信号处理单元来补偿光器件和光链路中的各类损伤,并在Driver和TIA中集成CTLE和EQ均衡,来弥补DSP能力的缺失。据估计,未来的3.2T光模块中,LPO有望将光模块功耗从40W(DSP2nm方案)降低到20W。
此外,LPO可大幅降低时延,更适配AI算力场景。LPO光模块的成本也相对较低(据测算,800G光模块总成本可降低约8%)。与DSP方案相比,LPO的缺点是光传输性能下降(即传输距离缩短),不同模块互联互通困难,同时光模块能提供的故障诊断信息有限,降低了系统的可维护性。因此,面向单通道200G+系统,今年业界又提出了LRO(也叫TRO)方案。该方案取了折中,在发射端保留DSP来对发射光信号进行预处理,在接收端仍采用无DSP的线性输出,部分弥补了LPO方案的缺点,同时还能实现了可观的功耗收益。
更长远来看,分别面向交换机互联和芯片级互联,光电合封(CPO)和光I/O(OIO)在关键指标上具有显著优势,但受技术、产业链、标准等限制,大规模商用还有待时日。
在光芯片方面,当前的高速(400G+)光模块主要采用VCSEL、EML和硅光芯片。VCSEL在功耗和成本上具有显著优势,然而由于带宽受限和多模特性,主要应用于百米以内的距离,且单通道200G技术尚未成熟(2024年OFC已有公司进行Demo)。EML和硅光芯片的带宽已满足单通道200G应用。硅光芯片在物料成本、工艺、集成度、光源数量、性能稳定性等方面都具有优势,多年来一直受到行业追捧。
另外,硅光调制器具有良好的线性度,更适配LPO系统。然而硅光的发展还面临着一系列挑战,如硅的传输损耗和带宽瓶颈,与电芯片、光纤和光源的连接、产业链标准化等。据预测,硅光模块的占比在未来几年会快速提升,达到一个可观的比例。在下一代的单通道400G系统中,信号波特率超过200Gbaud,要求器件带宽在100GHz以上,除EML,薄膜铌酸锂器件也受到广泛关注。
03 数据中心间光互联技术
智算中心的发展也提升了数据中心间互联(DCI)带宽的需求。DCI传输距离可达百公里级,需要使用基于相干光通信架构的密集波分复用系统。相干系统具有高谱效率、高性能等优势。自2008年北电发布首款相干光收发机(40G)以来,相干系统快速演进,目前商用系统的单波最高速率已达到1.6T,采用3nm工艺和100GHz光电子器件。在单纤容量方面,C+L双波段系统已成功实现商用,使光纤可用频谱达到了12 THz,可支撑近百T容量。与长途应用相比,百公里级的DCI场景对成本、功耗、体积有着更高的要求,因此催生了可插拔相干光模块(ZR系列)。
400ZR目前已大规模商用,800ZR和1600ZR的标准化也在快速推进中。ZR系列的速率演进受成本、功耗和体积的约束,相对长途系统有一定滞后,1.6T的部署预计从2027年启动。在AI应用对光互联速率的驱动下,相干系统往更短距离的下沉得到了提速。目前看来相干系统有望下沉到10公里场景,在1.6T/3.2T应用中与直调直检系统展开竞争。然而,由于在成本和功耗上的劣势,只要直调直检系统能解决传输距离问题,相干系统若想实现替代还需要在技术上有质的突破。DCI系统对时延也十分敏感,与实芯光纤相比,空芯光纤可将链路传输时延降低1/3,在DCI应用中潜力巨大。
此外,空芯光纤还具有超宽谱、超低损和超低非线性的潜在优势,是近年来光通信领域的研究热点,但是其大规模部署还需要解决众多的技术和工程化问题。
DCI波分系统的管控和运维是保障智算中心高效运行的关键环节。自动驾驶光网络、智慧光网、数字孪生、数字光层等一系列概念成为近年来的研究热点。业界期望在光网络的全生命周期中(含设计规划、建设交付和运营维护)都实现智能化管理。其中,实现秒级甚至毫秒级的全参量系统性能监测和数据采集是智能运维的基石。
另外,对链路物理损伤如光纤非线性效应、光放大噪声、光滤波损伤、光偏振效应等的数字化建模也十分关键。在实现光物理层数字孪生的基础上,可以研发智能算法来实现光网络的自动控制、优化和故障处理等。由于DCI对可靠性有着极高的要求,在网络的控制过程中如何实现全局风险管控是一大关键。在C+L系统中,因为存在严重的受激拉曼散射(SRS)效应,系统会引入假光填充,波道间的管控变得极为复杂,是接下来业界的研究重点。在未来采用拉曼和EDFA混合放大的高性能系统中,光物理层调控的复杂度也会进一步提升。业界期待AI技术在自动驾驶光网络中发挥关键作用。