2026年4月10日,第四届“光华杯”千兆光网应用创新大赛“全光运力 毫秒用算”专题赛决赛在北京圆满举行。中国移动通信集团湖北有限公司(以下简称:湖北移动)申报的《光智融合,HIC-OTN无损光网络助力九天大模型增训行业模型,赋能水利行业锻造新质生产力》荣获“全光运力 毫秒用算”专题赛决赛二等奖。

在“十五五”规划全面实施“人工智能+”战略的背景下,企业在使用生产数据训练行业大模型时面临企业数据涉及商业机密不能外传和受成本限制需要租用远端算力的严峻挑战。传统数据搬运或边训边传方案都存在数据泄露风险,严重制约了人工智能技术在产业端的应用。
湖北移动创新性地提出了基于流水并行训练模式的无损光传输分布式训练方案,成功解决了企业在人工智能应用过程中数据安全与算力需求矛盾。
该方案的主要创新点为:突破以往只能在单一智算节点内完成模型全程训练的限制,将模型输入输出层拉远部署在客户侧,隐藏层部署在智算中心,中间传输的仅为模型参数,与原始数据完全脱敏,从根本上实现了“数据不出园区”的安全训练,且通过无损传输,确保即使发生光缆故障也能确保拉远训练效率不降低。
网络传输方面,依托中国移动原创的HIC-OTN无损智算光传输方案,具备单波400G+和C+L大带宽能力,通过架构优化将设备时延降低50%以上,实现“0丢包”无损传输。
针对现网故障中占比75%的光路异常问题,HIC-OTN创新保护机制实现了故障下0丢包、0错包。实测显示,在模拟注入近百次光路故障的情况下,对训练效率无影响,有效保障了长稳训练。
算法优化方面,通过vPP算法实现计算与传输耗时的互相掩盖,将串行操作优化为多GPU并行操作,使分布式训练效率保持在98%以上。在推理场景引入数据混淆技术,向量化数据经混淆后传输,有效防止数据窃取。
以某大学的水利大模型建设项目为例,取得了如下显著成效:大模型准确率从75%提升至85%;分布式训练与单集群训练结果一致性偏差小于5%;企业算力投入降低30%,数据中心耗电量减少20%;计算存储资源利用率提升20%以上。
湖北移动计划将该方案推广至更多行业,为各行业的专业模型训练需求提供了安全可靠的解决方案,有望在更大范围内推动我国人工智能产业高质量发展。

