摘 要 高可靠性是以太网技术达到电信级要求的主要挑战之一。列举了与可靠性相关的以太网技术,分析了保护的时间模型和目标,重点基于ITU-T标准介绍了以太网线性保护和环网保护方面的最新发展,并对其相关标准、协议机制和实现与应用等进行了阐述和分析。
Ethernet Linear Protection and Ring Protection Zhan Yichun
(School of Computer Science, Huazhong University of Science and Technology, Wuhan, 430074, China)
Abstract: High reliability is one of the key challenges for Ethernet technologies to meet the Carrier-class requirements. This paper presents the related Ethernet technologies to reliability and introduces the temporal model and requirements of protection in the carrier Ethernet. Based on the development of Ethernet OAM standards and technologies, this paper analyzes the corresponding protocols, mechanisms, implementations and applications.
Key words: Carrier Ethernet, Reliability, Linear protection, Ring protection
1. 概述
以太网技术由于其自身所具有的简单、高效和低成本等特点,正迅速地从局域网主要组网技术向城域网和广域网组网技术发展。然而,难以提供快速的业务保护和故障恢复机制是阻碍其在城域网内大规模部署的主要原因之一。
电信级的可靠性要求主要包括5个9的设备和网络高可靠性要求。设备的高可靠主要体现在各种级别设备的软、硬件高可靠设计如关键模块和板卡的备用冗余能力等,而网络高可靠性主要体现在50 ms的网络自愈时间要求等。这些要求对于传统用于LAN领域的低成本的以太网设备和早期电信级以太网设备来说都难以全部提供或保证。
人们不断为提高以太网技术可靠性的努力,各种技术和标准也不断涌现。其中ITU-T的以太网线性保护(G.8031 )和以太网环网保护(G.8032)不断引起大家的重视。
本文将基于ITU-T标准介绍以太网线性保护和环网保护方面的最新发展,并对其相关标准、协议机制和实现与应用等进行了阐述和分析。
2. 以太网可靠性相关技术
弹性自愈
长期以来,制约以太网在电信网络上使用的主要原因之一就是传统以太网的可靠性问题。这与其所承载业务的分组化特性和自身机制有较大关系。分组化业务的流量多以突发模式出现,较难保证恒定的业务流量。统计时分复用和地址自学习机制作为以太网的两大特点,在提高了带宽效率和简单灵活性的同时也引入了业务带宽和业务路径的不确定性。
在传统的传送技术中,自愈包括保护和恢复两个概念。保护是指在故障发生前为工作实体指定了备用资源,并可保证备用实体的带宽等资源,从而实现在故障发生时的快速自愈。而恢复是不预先分配备用资源,而在故障后再计算和分配备用路径和带宽等,因此自愈时间难以保证。比较而言,保护技术对故障反应更快些,但是恢复技术通常能达到更好的资源利用效果。传统的TDM业务所特有的固定带宽和速率等特性,带来了刚性网络设计思路和刚性的保护方式。例如在SDH中,对业务的只有完全不保护和完全保护两种刚性差异。而在分组化网络中,由于业务的弹性特征,导致其自愈技术也更多体现弹性,而很难体现保护和恢复的区别。这一点从RPR技术开始不断被凸显出来。因此,在MEF对于保护的标准中提出了分级保护的需求,即针对不同业务需求提供差异化的分级保护。
相关可靠性技术
为了提高网络可靠性,在拓扑上多采用星型双归属、环形和网状拓扑方式。在保护技术上包括:
链路聚合保护(IEEE802.3ad)
生成树保护(STP/RSTP/MSTP)
以太环网保护(EAPS、MSR、G.8032、ERP、RRPP、ZESR、E-SPRing……)
RPR保护(Wrapping、Steering)
线性保护(G.8031/G.8131 )
ALNP保护(MPLS FRR)
在以上保护技术中,链路聚合应用最广泛,也最简单。作为链路保护技术而言,现在也衍生出一些应用于双归属网络的私有技术,如思科的FlexLink、华为的SmartLink和烽火网络的R-Link等。
STP主要是生成一个无环拓扑,由于状态跃迁的缓慢,收敛时间较长。RSTP对此进行了改进,将收敛时间缩短到几秒内。MSTP主要是为了提高网络利用率,而提供多个STP实例运行的方案。
IETF RFC3916定义了EAPS保护技术。EAPS严格来说并不是IETF推荐的标准,而只是一个备忘录,但由于其简单灵活的实现方式,已经成为事实上的以太环网技术标准。EAPS保护技术已经被众多设备制造商实现,并衍生出多个私有技术。核心思想都是基于标准MAC交换+改进的生成树算法+以太网故障检测机制+简单的环网控制协议。通过环网控制协议将物理的环破解成逻辑的链,并利用改进的生成树协议和MAC交换完成保护切换。
RPR采用互逆双环组网结构,定义了两种保护机制。一是环回方式,靠近故障的两端结点将数据流“环回”到另一个环上(如内环数据流到外环),通过长路径允许数据流维持与目的结点之间的连接。优点是故障切换的恢复时间非常短,只可能丢失极少量的报文,不会造成业务中断的情况;缺点是链路带宽利用效率不高。另一种是源路由方式,直接在业务的源点进行倒换,通过改变发送环向将数据流传送到目的结点,避免了带宽的浪费,但是由于需要重新收敛,恢复时间较长。RPR的Wrapping和Steering保护较为成熟,但是需要硬件支持。目前在G.8132的T-MPLS环网保护中也在基于该思路制定标准。
G.8031是ITU-T对基于VLAN的以太网技术定义的线性保护倒换标准。在保护切换机制中,对工作资源都分配相应的保护资源,如路径和带宽等。相对于IEEE定义的生成树保护技术,G.8031定义的保护技术简单快速,以一种可预测的方式实现网络资源切换,更易于运营商有效地规划网络及明了网络的活动状态,实现电信级的运营。G.8131是T-MPLS的线性保护倒换标准,这两个标准在风格上极为相近。
MPLS TE FRR快速重路由是MPLS-TE中一套用于链路保护和结点保护的机制。FRR的最终目的就是利用Bypass隧道绕过失败的链路或者结点从而达到保护主路径的功能。FRR在三层MPLS和VPLS网络中都有较为广泛的应用。
3. 网络保护的时间模型与需求
时间模型
根据ITU-T G.808.1和MEF 2的定义,网络保护的时间模型如图l所示。该模型由两个关键参数组成:一是事件发生时刻;二是事件发生时刻之间的间隔或者持续时间。由图示可知以下结论:
1. 保护倒换时间不等于业务恢复时间。
2. 保护倒换时间=故障检测时间+保持时间+故障通告时间+保护操作时间
3. 为了确保保护倒换时间达到电信级的50ms要求,则需分别努力缩短故障检测、通告和倒换的时间。

图1 网络保护的时间模型
通常情况下,故障包括失效故障和劣化故障两类。前者主要是指链路、接口和经结点故障导致的流量断开;后者指由于误码、信号不佳导致的信号质量劣化。对于失效故障,通常不用设置保持时间,而对于劣化故障则要考虑保持时间。
以太网保护的需求
MEF对于保护的时间需求定义分级标准,主要分成了4类,如下所示:
·Sub-50ms 恢复时间.
·Sub-200ms恢复时间.
·Sub-2s恢复时间.
·Sub-5s恢复时间.
典型的电信级以太网业务需要达到50ms的业务自愈时间。部分实时业务(如语音业务)在150ms~200ms故障恢复中就能基本保障用户无感知。基于TCP的应用大多可以容忍5秒以内的自愈时间。
此为,MEF对于对以下项目都进行明确要求,从而规范电信级保护与普通保护的差异。
1.故障类型
2.劣化故障的条件门限
3.传送层保护机制的互操作
4.保护控制机制应包含的参数
——Hold-Off Time.
——Revertive/non revertive mode.
——Reversion (Wait To Restore) Time.
5. 保护的操作模式
——手动倒换
——强制倒换
——锁定
6. 双向倒换
7. 健壮性和后向兼容性
8. QoS和管理接口参数
ITU-T在线性保护和环网保护过程中则定义更严格的以太网保护目标。例如对于保护倒换时间都要求在50ms以内。
4. 以太网线性保护
以太网线性保护用于保护一条以太网连接,它是一种专用的端到端保护结构,可以用于不同的网络结构,如网状网,环网等。G.8031定义了1+1和1︰1两种保护方式,在1+1方式中每一个保护资源都对应着一个工作资源,在保护域内,1+1方式采用双发单收的保护机制;1︰1方式采用保护资源与工作资源彼此切换的机制。
1+1 以太网线性保护
在1+1 结构中,保护连接是每条工作连接专用的,工作连接与保护连接在保护域的源端进行桥接。业务在工作和保护连接上同时发向保护域的宿端,在宿端,基于某种预先确定的准则如缺陷指示来选择接收来自工作或保护连接上的业务。为了避免单点失效,工作连接和保护连接应该走分离的路由。

图2单向 1+1 保护倒换结构
1+1 以太网线性保护的倒换类型包括单向倒换和双向倒换。单向倒换时只有受影响的连接方向倒换至保护路径,两端的选择器是独立的。双向倒换的机制与单向类似,通常需要APS信令在两端协调。单向保护可以防止在两个独立方向上的单通故障。1+1 以太网线性保护的操作类型可以是非返回或返回的。
1+1 以太网线性保护倒换结构如图2 所示。在单向保护倒换操作模式下,保护倒换由保护域的宿端选择器完全基于本地(即保护宿端)信息来完成。工作(被保护)业务在保护域的源端永久桥接到工作和保护连接上。若使用连接性检查包检测工作和保护连接故障,则它们同时在保护域的源端插入到工作和保护连接上,并在保护域宿端进行检测和提取。需注意无论连接是否被选择器所选择,连接性检查包都会在上面发送。
如果工作连接上发生单向故障(从结点A 到结点Z 的传输方向),如图3 所示,此故障将在保护域宿端结点Z 被检测到,然后结点Z 选择器将倒换至保护连接。

图3单向1+1 保护倒换(工作连接失效)
1:1线性保护
在1:1 结构中,保护连接是每条工作连接专用的,被保护的工作业务由工作或保护连接进行传送。工作和保护连接的选择方法由某种机制决定。为了避免单点失效,工作连接和保护连接应该走分离路由。
1:1 以太网线性保护的倒换类型是双向倒换,即受影响的和未受影响的连接方向均倒换至保护路径。双向倒换需要自动保护倒换协议(APS)用于协调连接的两端。双向1:1 以太网线性保护的操作类型应该是可返回的。
1:1以太网线性保护倒换结构如图4 所示。在双向保护倒换模式下,基于本地或近端信息和来自另一端或远端的APS 协议信息,保护倒换由保护域源端选择器桥接和宿端选择器共同来完成。
若使用连接性检查包检测工作和保护连接故障,则它们同时在保护域的源端插入到工作和保护连接上,并在保护域宿端进行检测和提取。需要注意的是,无论连接是否被选择器选择,连接性检查包都会在上面发送。

图4双向1+1 保护倒换(单向表示)
若在工作连接Z-A 方向上发生故障,如图5 所示,则此故障将在结点A 检测到。然后使用1 态APS 协议触发保护倒换,协议流程如下:
1) 结点A检测到故障;
2) 结点A选择器桥接倒换至保护连接A-Z(即,在A-Z方向,工作业务同时在工作连接A-Z和保护连接A-Z上进行传送)和结点A并入选择器倒换至保护连接A-Z;
3) 从结点A到结点Z发送APS命令请求保护倒换;
4) 当结点Z确认了保护倒换请求的优先级有效之后,结点Z并入选择器倒换至保护连接A-Z(即,在Z-A方向,工作业务同时在工作连接Z-A和保护连接Z-A上进行传送);
5) 然后APS命令从结点Z传送至结点A用于通知有关倒换的信息;
6) 最后,业务流在保护连接上进行传送。

图5双向1:1 路径保护倒换(工作连接Z-A 故障)
以太网线性保护的应用
以太网线性保护目前最典型的应用就是用于PBB-TE/PBT的端到端路径保护模型(如图6所示)。针对端到端的主路径,通过提供端到端的次路径(secondary path)实现端到端保护。

图6 PBB-TE/PBT保护模型
PBB-TE/PBT通过网管平面预先静态配置主路径和备份路径。交换路径一旦建立,按正常工作方式转发流量,并通过以太网OAM实现故障检测。当OAM检测到故障发生后,通告相关结点,通常是PE设备,PE设备更改标志位,切换主备标签交换表,完成流量的切换。
5. 以太网环网保护
技术比较
城域网中传送网主要是采用环网架构,环型网络拓扑在层次化组网、节省线路资源(比如光纤、Cable等)、提供灵活快速的保护、简化组网拓扑和简化网络管理等方面具备格型和星型方式不能完全提供的优点。但是,它必须给数据通道提供快速的故障恢复能力,其中最关键的就是小于50ms的保护倒换能力。
目前各种电信级以太网技术在组网时,许多厂家的设备大多支持环形组网,各种技术大同小异。物理上都是环形网络拓扑,而逻辑上的链型或树型拓扑;环上结点数与设备性能、业务流量、传输距离相关,理论上没有限制。提供Steering风格的保护机制。主要差异在于分布式的故障检测和block点的灵活选取,从而提高故障检测时间和网络带宽利用率。具体分析如下:
共同点大于不同点:
核心思想都基于标准MAC交换+改进的生成树算法+以太网故障检测机制+简单的环网控制协议。通过环网控制协议将物理的环破解成逻辑的链,并利用改进的生成树协议和MAC交换完成保护切换。
主要差异在于故障检测机制(集中、分布)、Block端口的选取(固定、可配)、故障恢复机制(集中、分布)和帧结构
可靠性与效率并重:
分布式故障检测机制对于如设备故障而端口仍然UP,端口光功率过载等情况下的业务保护仍可达到50ms量级,集中式故障检测机制倒换性能将会达到秒级
主结点与Block端口的选取分离可有效提高带宽利用率
分布式与集中式相结合的故障恢复机制可有效提高故障恢复的可靠处理
帧结构推荐符合G.8032的规范要求
|
主流以太环网技术 |
故障检测 |
Block端口的选取 |
故障恢复机制 |
|
EAPS(RFC3619) |
集中 |
固定 |
集中 |
|
MSR |
分布 |
可配 |
分布+集中 |
|
G.8032 |
分布 |
固定 |
集中 |
|
ERP |
分布 |
固定 |
集中 |
|
RRPP |
集中 |
固定 |
集中 |
|
ZESR |
集中 |
固定 |
集中 |
|
E-SPRing |
分布 |
固定 |
分布 |
G.8032以太环网保护

图7 G.8032/Y.1344– 以太环网保护倒换体系结构
下面以ITU-T G.8032为例进行介绍。G.8032对于以太环网给出了明确的组网目标和定义,例如:
1. 一个以太环是由一组IEEE 802.1 兼容的桥组成的环形拓扑(如图7所示)。
2.在以太环网中转发的或者来往于环路端口和非环路端口之间的流量应该完全基于IEEE 802.1规范的转发规则。
3.每个环结点应该有两个确定的环端口对应于每个逻辑环。并且每个结点应连接于一个闭合的环路。
4.在以太环网拓扑中,每个结点应该通过基于802.3 MAC的环端口与其它两个结点相连。而以太网MAC可以可以由其它服务层技术承载(SDH VC、MPLS的ETH 伪线等)。环上的每个跨段应该独立于所用的传送技术,并且可以提供不同的带宽容量。
在G.8032中,定义了RPL和RPL 拥有结点的概念。RPL指的是正常情况下被阻塞的环端口连接的链路。而RPL拥有结点是负责阻塞RPL上环端口的结点。这也对应于其它环网技术中的主结点和从端口的概念。
图8和图9给出了链路故障时的保护倒换场景。其中环网由8个结点组成。RPL链路为结点A和G之间的链路。结点G是RPL拥有结点。链路发生故障发生在结点C和D之间。故障发生时的流程如下:
正常状态
故障发生
结点C和D检测到本地信号失效,并阻塞故障端口。
在故障持续期间,结点C和D周期性在两个环端口上发送SF(signal fail)消息。
RPL 拥有结点收到SF消息后,打开它的RPL链路。
稳定状态,环路上周期性通告SF消息。

图8 链路故障时的保护倒换场景

图9 链路故障恢复时的保护倒换场景
故障恢复时的流程如下:
稳定的SF状态
链路故障恢复
C.结点C和D检测到SF状态的清楚,启动守护定时器并开始周期性的向两个环端口发送NR消息。
D.当RPL拥有结点收到NR消息后,启动WTR定时器。
E.结点C和D的守护定时器超时后,它们可以接收新的R-APS消息。
F.WTR定时器超时后, RPL拥有节点阻塞其RPL的端口并发送NR RPL Blocked消息。
G.当结点C和D收到 NR RPL Blocked消息后,他们解除对其阻塞的端口的阻塞。
以太环网保护的应用
尽管目前环形拓扑是电信级以太网中较为有效、关键的手段之一,但是新引入的信令控制协议也带来了一些问题:多环组网时协议效率、可靠性、交会结点设备的压力、环上多跳带来的效率下降、环路的带宽算法、环网的扩容等。另一方面,多环组网问题仍旧还需要深入研究,目前G.8032还没有明确的标准,而各厂商的实现也存在一些差异。
从保护能力上看,环网技术有天然的优势,环形拓扑是最简洁的具备冗余的拓扑结构。相比较双星型双归拓扑,环形拓扑可以节省一半的链路数量。从网络容量上看,环网能够承载的流量受限于环链路带宽,因而通常环网规模会受到限制,扩展性比较差。从与流量流向的适配来看,环形组网适合对称型流量,不太适合运营商上下行流量不对称以及层次化网络结构的特点。
由此可见,环网技术适合于在一些可靠性要求高的多业务综合承载场合。
6.结束语
以太网技术要达到电信级要求,高可靠性是其首先需要解决的问题。目前主要的几种电信级以太网技术在可靠性方面均能达到50ms的要求,部分以太环保护技术,保护倒换时间在200ms左右。从线性保护和环网保护标准的发展来看,以太网保护越来越融入了电信级设计的思路和考虑。从应用来看,国内运营商的城域以太网层面较低,而且大部分是分离的二层网络,由于网络数量多、规模小,可以根据不同的网络场景,选取不同的技术;而国外运营商则需要在整个城域范围内统一采用某种技术组网。这是国内外运营商在电信级以太网组网方面最大的差异,这种差异导致国内外运营商在电信级以太网技术的选择上也各有侧重,如国外运营商更看重技术的可扩展性;而国内运营商则更注重技术的可靠性、QoS及OAM等。因此,如何根据不同厂家技术和设备的特点,结合运营商自身的实际需求进行应用和部署,是目前国内运营商急需解决的问题。
