2024-7-18 17:16

腾讯陆佳宁:数据中心开放光网络中“自动驾驶”设计与全局风险管控

C114讯 7月18日消息(邵鹏慧)今日,CIOE中国光博会与C114通信网联合举办“2024中国光通信高质量发展论坛”第六场研讨会——“智能光网络:应对算力新挑战”正式上线。腾讯网络运营工程师陆佳宁应邀作了题为《数据中心光网络中结合全局风险管控的“自动驾驶”设计与实践》的主题演讲。

陆佳宁指出,在数据中心开放光网络环境中,光纤作为信息传输的基础,其稳定性和性能直接影响到网络的整体效能。陆佳宁在演讲中深入探讨了光网络中光纤变化所带来的挑战及“自动驾驶”的核心技术与未来展望。在陆佳宁看来,全局风险管控是“自动驾驶”设计的重要组成部分,特别是在多供应商、多波分平面的环境下,需对不同网管进行统一管控。

光网络运维最大问题是光纤变化

陆佳宁表示,随着数据中心基础设施海量运营,光纤的数量增多,会遇到一些典型问题,比如中断、劣化、以及小幅度的抖动和变化。对于光纤中断以及光纤劣化问题,需要出具光纤工单,值班中心报障运营商,同波分运营共同配合修复光纤;对于光纤小幅度抖动和变化,达到建单条件时,同上处理,没有建单时需被动等待后续更大幅度抖动时出单。实际上光纤事件出单几率低,维修困难,若衰耗增益失配,无自动化手段恢复。

同时,光纤衰耗与增益失配会影响性能。陆佳宁介绍,如果光纤衰耗大于光放站增益,那么ASE占比提升,信号性能会明显的下降。相反,如果光放站的增益大于光纤衰耗,NLI噪声提升,会导致信号过强。让光纤衰耗和光放站增益处于相对匹配位置,是较理想运营状态。

当前光纤量越来越大,造成衰耗抖动愈发频繁,对于业务的影响逐渐增多,光纤和增益的适配,不仅会影响波道性能,在收端的倒换也会受到影响,甚至会失效。而正确配置系统光放的方法是光纤衰耗等于净增益(光放增益-VOA)。系统建设初期,要保证余量足够,用光放增益和衰耗配置的方法,可以顺利运营系统整个生命周期。此外,陆佳宁表示系统配置的自动追踪是提升系统稳定性的关键。

“自动驾驶”遵循四大核心设计理念

陆佳宁指出,当前“自动驾驶”设计以基准衰耗为基础,采用模块化解耦设计确保任务高效调度与执行,通过全局视角实现多层级任务管控与风险预防,同时遵循人工运维逻辑安排任务序列,确保调测流程安全性与准确性。

首先,“自动驾驶”设计以基准衰耗为基础。“自动驾驶”为了让系统自动追踪光纤变化,准确配置光放板卡的增益和VOA,需以基准衰耗为基础,计算光放配置。能够准确捕捉光纤衰耗的真实变动,排除瞬时抖动或异常值的干扰。

第二,“自动驾驶”需进行模块化解耦设计。“自动驾驶”的原理为,创造调测任务,触发“自动驾驶”,再进一步调度任务,执行任务,整体流程需要模块化解耦对系统进行设计。触发源只负责任务创建触发,任务创建模块收到触发源的信息,对任务属性进行解析,在任务中心创建任务,拆解并记录子任务。为后续全局管控和任务调度,需对整体任务进行分层设计,分为平面任务、复用段任务和子任务,按优先级进行管控。任务创建后,由任务自动调度模块传递到调测流程中,正式开始配置计算和调测流程,此外还需要全局管控模块,统筹风险管控。

第三,“自动驾驶”设计要有全局视角调度和控制能力。陆佳宁表示,全局控制调度包含系统划分,顺序保障以及临时暂停和恢复。系统划分是以传输系统的物理层面进行划分,保障不同调优拓扑的独立性;顺序保障需确保同一个系统中的所有子任务均已完毕,才开始调测下一个拓扑;暂停和恢复则是当“自动驾驶”过程出现其他意外动作状态,如故障或认为结束命令时,暂停当前调优,意外动作状态结束时,恢复调优。

自动调度任务顺序是核心,要确保链路调测顺序符合人工运维习惯。对于点对点系统调测顺序,无分叉,依据简单上下游关系而ROADM系统,带分叉,以业务流向定义顺序。

第四,“自动驾驶”设计需明确调测流程关键点。在调测流程中,有安全性和准确性要求。任务执行时,要准确计算,以性能拟合值而非瞬时值计算,还需要对器件类型进行区分。在调测过程中分布下发,并且进行校验,确保配置下发成功,性能符合标准。此外还有安全机制,一定时间内OSC无抖动开始任务调度,规避故障叠加,任务执行过程中若发生非稳态抖动则中止任务,继续等待稳态,如果有异常直接回退处理。

结合骨干网流量模型对各网管统一管控

为什么要做全局风险管控,陆佳宁介绍,波分系统对于腾讯云网络来说,承载着骨干网流量模型。城域和区域的系统为单波分网络,双波分平面,多数通平面。长途系统则是多波分网络,多波分平面,多数通平面。

但是光放增益配置调节存在理论风险,考虑到骨干网风险管控需求,多个波分平面不能同时中断,所以仅从波分网络视角的风险管控,不足对数通层面的风险进行管控的,需对不同波分网管进行统一管控,才能进行“自动驾驶”。

陆佳宁指出,当前波分平面,处于多供应商状态,放在不同网管上,而“自动驾驶”系统也是放在每个网管上面,不同网管“自动驾驶”是无法互通的,所以腾讯云网络进一步引入了全局风险管控思路,对各网管的“自动驾驶”统一加锁管控。在城域和区域上同波分网络内有风险禁止任何平面“自动驾驶”,在长途上同数通平面内有风险禁止任何平面“自动驾驶”,在测过程中影响业务主动发起回退。

在谈到对“自动驾驶”的未来展望时,陆佳宁强调,“自动驾驶”实际上是通过对光网络配置项做出相应动作,让光网络处于最优状态。可以对“自动驾驶”做更精细的处理,根据实时光纤余量进行故障场景智能隔离决策和自动保护倒换阈值的调整。

对于C+L的“自动驾驶”,思路也需转变,从简单的衰耗补偿思路进化为入纤谱稳定思路,这是对C+L系统提出的新要求,需要考虑官方斜率、WSS voa、光放增益,进行统一的“自动驾驶”设计。

作者:邵鹏慧   来源:C114通信网

相关

光纤光通信智能光网络网络光网络
本评论 更新于:2024-9-8 7:23:19
在C114 APP中与业内人士畅聊通信行业热点话题!