2024-11-11 13:59

MEMS OXC缺陷明显,前途无亮

随着大模型兴起,AI技术如潮水般涌入千行万业。国内对于智能计算的AI训练热情也是空前高涨,智算集群基础设施,如雨后春笋般涌现。未来AI训练模型和数据量将加速增长,集群规模也将从万卡向十万卡规模演进,但是新的问题又诞生了。

智算集群规模的迅速扩张,让交换机的传统组网架构“犯了难”。一方面电交换技术应用广泛,需要不断提升性能。另一方面,业界小众圈子提出 MEMS OXC 光交换技术思路,但在笔者看来,MEMS OXC 在技术层面有难以回避的问题,它并非电交换技术的“一键替换”选项,业界需冷静评估。

集群规模扩张,挑战接踵而至

智能时代,算力先行。在AI大模型驱动下,国产算力需求过去一年经历了爆发式增长。根据工信部数据显示,截至2024年6月,我国算力总规模达246 EFLOPS(每秒百亿亿次浮点运算次数),位居世界第二,智能算力的同比增速更是超过了惊人的65%。

我们看到,科技巨头、运营商以及云服务商纷纷加速布局智算集群,抢抓大模型带来的发展机遇。例如,中国移动智算中心(哈尔滨)在近日正式投产使用,该智算中心可以提供高达6.9EFLOPS智能算力,也是全球运营商最大单集群智算中心。

随着AI大模型参数量级呈指数型增长,未来的集群规模势必越来越大。根据华为发布的《智能世界2030》来看,预计到2030年,将出现参数规模达到人脑突触连接数级别的大型模型,参数量将达到百万亿到千万亿之间,推动集群规模从目前的十万卡集群扩展到百万卡集群,以支持这些庞大模型的训练和推理任务。

在庞大的智算集群中,交换机承担着数据通信中枢、流量管理与负载均衡多项功能,其作用不可小觑。在上述演进过程中,当前交换机网络基于两层的Spine-Leaf架构,行业能力基本只局限于几万卡规模,若要实现十万卡规模,则需升级到三层架构。

对于新增的这层架构,应该使用电交换还是光交换,在业界引起了广泛的讨论。

电交换应用广泛,积极探索极简架构

电交换系统堪称大规模智算集群中的核心组件,何谓电交换技术?简单来说,在通信需求产生时,电交换系统可以为通信双方建立一条专属的物理通路,保障数据传输的独占性和实时性。当通信结束后,电交换系统及时释放这条通路,以确保数据高效、有序流动。

电交换技术得益于显著的灵活性、低时延以及成熟的生态体系,在智算集群中得到广泛应用。

首先,电交换技术的高灵活性使得系统能够根据实际需求动态调整通信资源,满足智算集群中复杂多变的通信需求;其次,电交换技术的低时延特性确保了数据传输的实时性,对于需要快速响应的应用场景最为重要;最后,电交换技术拥有完善的生态体系,能够与其他系统和设备兼容,降低了智算集群的部署难度和成本。

电交换技术在智算集群中的部署也有新的挑战,随着集群规模持续扩张,其面临的新的升级需求愈发显著。当集群规模突破两层Clos架构支持的最大规模后,需要扩展到三层Clos架构,设备数量和模块数量增加,管理和网络调度也更加复杂。业界部分交换机厂商也在积极探索更加高效的架构如Dragonfly+,来简化网络架构,降低成本和能耗。

MEMS OXC技术缺陷明显,不具备商用条件

与此同时,业界提出光交换技术,并在市场崭露头角。光交换技术也称微机电系统光交叉连接技术,缩写为“MEMS OXC”。MEMS OXC就像是光网络中的“智能交通指挥系统”,通过精密的微机械镜片阵列,灵活调整光路径,实现光信号在不同光纤间的准确切换。

简单来说,MEMS OXC的本质是自动配线架,二者孰优孰劣?从下方表格可以看出,MEMS-OXC与自动配线架虽然都具有一定的自动化程度,但在灵活性和可编程性方面,MEMS-OXC明显优于自动配线架。因此,在需要高度灵活性和可编程性的场景中,如大型数据中心、云计算平台以及高速通信网络等,MEMS-OXC是更为合适的选择。

任何技术的发展都伴随着挑战,MEMS OXC也不例外,但是业界分析较少。我们调研了解到,全网负载均衡、高时延以及较高的插入损耗,是MEMS OXC当前面临的主要难题。

以全网负载均衡为例,由于光网络流量的动态变化,如何确保各节点间的负载均匀分布,避免局部过载,成为技术突破的关键。这一难点的根源在于光信号的物理特性及网络拓扑的复杂性,使得实时、精确的负载均衡策略设计变得极为复杂。

客观来讲,MEMS OXC技术的应用,目前仍处于初级阶段,前景尚不明朗,具体来说:

其一:功能局限性。MEMS OXC本质上是一种自动配线架设备,缺乏灵活的通信转发功能,其所有通信任务均需依赖交换机来实现,因此在数据传输的灵活性和效率上存在局限;

其二:技术与商用成熟度不足。引入MEMS OXC后,对于智算组网的规模扩展、功耗控制、可靠性提升以及技术演进等方面均未带来任何实质性的改善。此外,MEMS OXC在硬件与软件层面均存在显著的技术缺陷,目前尚不具备投入商业应用的条件;

其三:市场应用有限。当前业界仅Google一家商用MEMS OXC设备。一方面,Google的DCN大网用OXC核心目的是多代兼容,首次投资成本推测2-5倍于电交换机。另一方面,Google的TPU集群用OXC的核心目的是解决Torus拓扑的可用度问题。

你是否也好奇,业界为何仅谷歌一家商用MEMS OXC设备?在笔者看来,谷歌作为全球领先的科技企业,在数据中心建设和运维方面积累了丰富的经验和技术实力,其选择MEMS OXC作为核心交换技术也是基于多代兼容和解决拓扑问题。

但这一考虑并非放诸四海而皆准,从宏观来讲,MEMS OXC技术成熟度不足导致其他企业难以快速跟进,同时高昂的投资成本和复杂的运维管理也限制了MEMS OXC技术应用。

根据LightCounting预测,预计到2029年,随着技术成熟与成本降低,MEMS OXC的全球市场空间约为5亿美元,其中大部分是google,但其产业规模仅为电交换的1/20。这一数据说明了MEMS OXC要想从实验室走向大规模商用,仍需克服诸多技术挑战和市场障碍,道路任重而道远。

综上所述,虽然MEMS OXC技术虽然被寄予厚望,但在技术层面,全网负载均衡是其难以回避的问题,在市场应用层面,其商用化进程也较为缓慢。整体进行评估,MEMS OXC的技术成熟度仍显不足,产业需要保持清醒的头脑。

因此,在探讨智算集群规模扩张下的技术抉择时,我们必须明确一点:光交叉技术(MEMS OXC)并非电交换技术的直接替代者,更非当前光电融合技术的完美实现。对于最终客户而言,当下电交换依然是主流,是更为可靠的方式。

来源:C114通信网

相关

交换机AI工信部运营商中国移动
本评论 更新于:2025-12-15 15:43:14
在C114 APP中与业内人士畅聊通信行业热点话题!