2025-12-18 13:56

浙江电信AI WAN IPv6 overlay无损网络助力企业用算弹性随行

00:00 00:00

——IPv6大赛AI WAN赛道获奖案例巡展 - 一等奖

♦ 参与单位

中国电信股份有限公司浙江分公司、中国电信集团有限公司、中国电信股份有限公司研究院、华为技术有限公司

♦ 项目背景

当前人工智能技术加速演进并深入各行各业,驱动计算资源需求呈爆发式增长,在旺盛的应用需求和多样化场景的双重推动下,中国智能算力规模将持续攀升,预计2026年将达到1460 EFLOPS,2027年进一步增长至超过2000 EFLOPS。然而,企业在实际使用算力过程中仍面临"两大瓶颈":一是本地算力扩展难,配套机房用电、空间等改造成本巨大;二是安全管控难度大,训练与推理过程中所涉及的数据多为企业的核心资产,数据安全性难以保障。

浙江电信与华为携手攻坚面向智算时代的AI WAN高算效无损网络基础设施,聚焦解决数据安全不出域、算力弹性扩展等关键场景需求,充分发挥IPv6 Overlay特性,通过强化网络能力,实施"以网强算"策略,对精准响应市场核心诉求、推动产业智能化升级具有重要意义。

♦ 技术方案

浙江电信Over IPv6 搭建的AI WAN无损网络,融合IPv6+与广域RDMA无损技术,构建具备"算网融合、弹性无损、安全可信、全域智控"特征的新一代运力基础设施。该网络依托IPv6+实现业务灵活部署,通过租户级拥塞控制与流级精细化调度保障广域RDMA无丢包传输,并构建智能运维体系确保服务高可靠,最终形成一体化算网服务能力。

方案围绕底层基础设施、调度与编排层、服务与管理层三个层面设计,系统以服务管理层为入口,客户根据业务需求选择数据迁移、模型训练/微调或分布式训推服务并提交订单。系统生成标准化服务指令,分别调用IP网络与云端智算资源。调度层基于数字孪生实时感知资源状态,匹配最优算力节点与RDMA无损路径,生成配置指令下发至基础设施层。底层400G智算广域网通过NETCONF/YANG协议配置设备,建立高吞吐无损通道;智算中心同步完成算力资源调度与安全配置,联调验证后确保服务满足业务SLA要求。

图1 浙江电信AI WAN无损网络核心架构

♦ 创新点

(1) 广域RDMA无损传输突破:在AI WAN高算效IP广域网中基于IPv6+底座,部署新型租户级流控机制,解决了传统网络因轻微丢包导致吞吐量骤降的问题,并实现租户级拥塞隔离,有效规避了传统PFC技术在广域场景下易引发的头部阻塞及拥塞扩散等缺陷,为分布式训练与推理构建可靠基础。

(2) 流级动态负载均衡技术突破:针对AI WAN高算效IP广域网中大小流量混合的特点,us级大象流识别技术创新,高准确率捕捉全网大象流,克服了传统ECMP算法因无法识别流速大小而导致的链路负载不均、吞吐低下等问题。

(3) 算网融合服务创新:整合网络传输、存储与算力资源,提供"算力+网络"一体化服务。企业可通过该模式实现训练与推理任务的端到端快速交付,算力获取周期从月级缩短至天级,极大加速企业AI业务部署进程。在训练高峰期可临时扩容并按小时计费,显著降低企业算力使用成本,推动普惠算力落地。

♦ 应用效果及推广前景

在实际部署中,浙江电信AI WAN无损网络接入嘉善和杭州的省级算力池,通过算网融合服务为全省政务、医疗、教育等多个行业提供普惠化的AI算力支持,助推行业智能化升级。

图2 数据安全性测试

图3 TTFT、TPOT性能

在超百公里存算分离的模型训练与微调场景中,浙江电信AI WAN无损网络端到端的弹性无损传输,精准适配数据预处理、模型训练及推理部署等关键场景的多样化需求,有效克服RDMA在广域网络中因单流突发带宽大、流数少而导致的拥塞、丢包和传输性能下降等问题,微调训练和云边协同分布式安全推理业务的计算效率高于95%,具备分布式推理、广域高算效、高收敛比、数据高安全等核心优势。浙江电信以温州为起点,逐步构建起"大集群+普惠化+智调度"新型算力体系和分布式训练与推理服务,满足政府、医疗、交通、企业的关键业务需求。

浙江电信AI WAN无损网络打破了传统的卖算力、卖存储、卖专线单一服务,创新性地为企业提供边、网、云一体化的打包服务,带来数据安全0泄露、弹性算力小时级扩容、边云协同高效运维三大核心能力,解决企业用算痛点,积极践行央企责任、创造社会效益,真正让算力普惠浙江。

来源:C114通信网

相关

网络IPV6AI中国电信华为
本评论 更新于:2025-12-18 14:28:15
在C114 APP中与业内人士畅聊通信行业热点话题!