2026年3月31日~4月2日,2026 ODCC春季全会在舟山举行。来自海思光电的资深产品应用总监齐鸣在做了题为《AI智算光互联应用和挑战》的技术分享。齐鸣在分享中指出,随着AI应用升级,算力形态正向大规模集群演进,大规模光互联中光链路故障与闪断已成为引发智算训练中断的核心症结。海思光电打造星云智检(StarSensor)方案,对光链路的故障支持分钟级检测、厘米级定位等特性,显著提升智算网络的长期运行的可靠性。

大规模集群互联对光链路可靠性提出极高要求。行业统计数据显示,在各类集群故障中,光链路相关问题占比达29%;OTT厂商智算集群开局运维数据进一步表明,光链路故障中光模块本体问题占比不足10%,而端面脏污引发的故障占比高达53%,已成为制约智算中心长期稳定运行的关键因素。上述数据充分印证,光链路闪断并非等同于光模块故障,链路端面脏污是引发集群闪断的主要原因。该类问题不仅直接影响光链路传输性能,更为智算网络的长期稳定运维埋下重大隐患。
传统光链路故障检测主要依赖光模块光功率监测与BER压测等方式,但其局限性较为突出:对于未引发光功率显著衰减的端面脏污问题,常规手段难以有效识别;同时,BER压测不仅耗时较长,亦无法精准区分故障根源为光纤脏污或接口虚插。针对上述行业痛点,海思光电的星云(StarMatrix)光互联解决方案创新性搭载星云智检(StarSensor)检测功能。相较于传统光功率检测方式,星云智检(StarSensor)具有以下技术特点:
●链路级感知:传统仪表检测手段,无论是误码率(BER)加压测试还是光功率检测,均存在检测精度不足的问题,难以有效识别光纤端面脏污等隐患。星云智检(StarSensor)依托自研核心算法,可精准识别链路级脏污、接口虚插等异常问题,检测准确率高达 90%。相较于传统检测方式,其脏污检测能力提升200%
●分钟级检测:相较于传统检测方式,星云智检(StarSensor)可在开局调测阶段对大规模网络实现并行化检测,无需依赖外部仪表及额外联纤操作,单链路检测时长由原小时级压缩至4分钟以内,显著提升开局调测效率
●厘米级定位:依托自研高精度检测算法,星云智检(StarSensor)可实现厘米级故障定位精度。运维人员能够精准判定故障点位,区分故障发生于设备面板光模块接口或光纤链路的跳转节点,无需对整条链路逐段排查,显著缩短现场故障处置耗时
在与OTT客户的现网验证中,星云智检(StarSensor)相较传统检测方案,显著提升了智算网络开局调测效率和光链路排障准确率。同时,搭载该方案的现网局点在后续长期稳定运行期间,未出现任何光链路相关中断事故,充分验证了星云智检(StarSensor)优异的检测精度与运行可靠性。
随着智算网络规模持续扩容,光链路数量呈爆发式增长,传统人工排障模式已难以满足高效运维需求。海思光电依托系统性技术重构,推出适配智算网络场景的星云(StarMatrix)光互联解决方案。该方案独家集成星云智检(StarSensor)功能,凭借分钟级故障检测、厘米级精准定位的突出优势,可有效规避AI训练部署阶段的潜在风险,为智算中心长期稳定、安全可靠运行提供坚实保障。

