2021-5-14 16:17

美团权皓:大规模、多厂商、多类型光模块管理成为重要课题

C114讯 5月14日消息(九九)随着信息时代的到来,以及人工智能、虚拟/增强现实、物联网等新型技术的出现,数据流量呈现爆发式增长,这种增长对数据中心网络架构和容量等提出了越来越高的要求。

在日前召开的“2021中国光通信高质量发展论坛”上,美团网络工程师权皓表示,美团数据中心从2015年发展到现在,一共经历了5代网络架构演进,在此过程中,网络构成发生了翻天覆地的变化:数据中心单集群服务器规模从1K发展到数万台,接收速率从千兆发展到100G和200G,互联带宽从10G发展为400G和800G。

当前,400G网络架构已经逐步商用,在不久的未来,800G甚至是1.6T模块也将会和我们见面。业内整体市场规模统计和预测显示,到2023年,光模块市场整体规模将达到120亿美元以上,相比2018年的60亿美元增长一倍。

随着网络架构升级,框式交换机逐步被拆成盒式交换机,光模块数量也随之增加。较10G网络,多平面CLOS架构增长了65倍。交换机和光模块也逐步解耦,以100G光模块为例,主要使用的类型包括100G SR4,100G CWDM4以及100G LR4,因而大规模、多厂商、多类型光模块管理将成为重要课题。

权皓指出,目前美团已经引入多种功能,预测和发现光模块在网络运行中的问题,力争实现实现自我诊断、自我治愈。

一是光模块信息采集。交换机和模块的解耦,使得模块需要独立运维管理,管理方法也需要从设备级别转为配件级别。美团光模块管理系统利用telemtry将模块的基本信息全部进行采集,包括光模块位置、生产日期,光模块厂商部件编码、序列号,以及收发光功率、温度、电压以及电流等基本信息,采集上来的数据经过格式化后存入数据库。

二是光模块信息监控。在实际运维过程中,可以总结出三大类端口故障,第一类是“端口闪断,秒级恢复”,第二类是“端口反复抖动”,第三类是“端口异常down”。其中第二类故障场景是常规监控手段无法实现的。为解决此类问题,美团网络团队探索了一种光模块预测方法,该方法通过对交换机日志和光模块数据进行分析,预判出哪些端口的光模块会出现异常,从而防患于未然,提高网络稳定性。

三是光模块信息运营。对故障模块原因和故障模块类型进行分析,可以发现发光器异常占比较大,CMDM4类型模块占比较大,所以需要在下一个POC阶段对CWDM4模块的发光器件进行重点测试。

权皓进一步指出,通过对100G光模块的故障管理,可以发现发光器件属于易损部件,在后续400G迭代中需要重点关注。

权皓表示,后续美团将引入AIOPS与光模块运维计划,利用机器学习分析告警阈值,通过网络、设备、光模块、光传输等更多精细特征指标实现异常主动发现和故障预测;结合业内数据、大数据分析及专家经验和知识图谱,分析光模块异常趋势,从而进行自我诊断和故障定位;并通过智能联动和快速通告,实现全链条的故障自动化处理。

作者:九九   来源:C114通信网

相关

网络服务器交换机测试光传输
本评论 更新于:2024-4-19 18:39:18
在C114 APP中与业内人士畅聊通信行业热点话题!