本文版权为《邮电设计技术》所有,如需转载请联系《邮电设计技术》编辑部
摘 要:提出一个通用的AI驱动的网络流量分类框架,阐述了所涉及的工作流程、分类目标、设计原则以及典型场景等,并提出了一个基于 BERT 的网络流量分类模型,通过将输入的分组净荷进行向量化嵌入,然后送入BERT进行预训练,用于实现流量数据的上下文理解并捕获双向特征,然后对接一个全连接网络对分类下游任务进行微调,从而实现流量分类。通过与AE、VAE、ByteSGAN 3个经典的流量分类深度学习模型在 CICIDS2017 公开数据集上进行对比,发现 BERT的精度明显高于其他方法。
关键词:流量分类;流量识别;入侵检测;BERT;大模型
doi:10.12045/j.issn.1007-3043.2024.09.003
引言
作为网络管理和安全的重要手段,网络流量分类(Network Traffic Classification,TC)自上世纪 90年代末开始就得到学术界和工业界的高度关注,在 QoS/QoE管理、网络资源优化、拥塞控制、入侵检测等方面都取得了很好的应用。随着新一代网络技术(B5G/6G、物联网、天地一体化网络等)的快速发展,网络技术正朝着“自愈、自管理、自优化和自保护”的高度自治化方向发展,网络流量分类技术作为精细化网络业务和安全管理的决策手段之一,扮演着关键角色。然而随着海量异构终端的泛在接入,网络呈现出高度的“动态性”“异质性”和“复杂性”,这给网络流量分类技术带来了一系列新的挑战。
TC技术的发展大致经历了3个阶段。第1阶段基于端口/DPI实现TC,然而随着越来越多的应用采用隧道、加密、随机端口等技术,加之涉及用户隐私泄露等安全问题,这类技术很快失效。第 2 阶段主要采用机器学习(Machine Learning,ML)、概率统计等方法,包括 SVM、RF、DT、KNN 等。然而,这类方法需要提取高质量的流量特征作为 ML 的训练基础,而这些特征的提取和选择高度依赖于网络专家的经验,且费时费力,无法满足网络和业务的快速演进和发展,从而造成“慢半拍”现象。此外,网络流量数据的“海量性”使得基于 ML的 TC方法在训练和分类方面不堪重负,难以满足工业界的实际应用需求。随着云计算、大数据,尤其是深度学习(Deep Learning,DL)和高性能计算技术的高速发展,海量流量数据的特征学习成为可能,给 TC领域带来了新的提升空间。2015年,王占一等人首次提出采用卷积神经网络(CNN)、堆栈式自动编码机(Stack Auto-Encoder)等 DL模型实现流量分类,使 TC 技术发展进入第 3 阶段。DL 有 3 个优点:自动提取特征、可揭示更深层次的数据规律和大量成熟应用于计算机视觉/图像/文本/语音的模型可复用,这些优点恰好是基于 ML 的 TC 方法所欠缺的,自此,基于DL的TC分类技术(下文简称DL-TC,后文中的AITC指ML/DL-TC)迎来了新一波的热潮,一系列的DLTC 分类方法被提出,包括基于 CNN/AE/MLP/LSTM/GAN 等方法,并取得了比 ML-TC 算法更好的分类性能。随着大语言模型(Large Language Model,LLM)的出现,其优异的内容生成能力给通信网络领域的研究者带来了全新的思路,本文将 Transformer、BERT 以及LLM赋能于网络流量分类定义为TC的第4次浪潮。
尽管DL-TC的研究工作取得了一系列成果,但在工业界(比如运营商、工/企业网等)始终未被实际应用,笔者认为现有的AI-TC技术仍存在诸多局限性。
a)数据集问题。数据集是AI模型的基础,而现有AI-TC 模型训练普遍采用公开数据集,这些公开数据集往往“量少、过时、质量无法考证”。
b)资源受限条件下的模型轻量化问题。AI-TC如何在网络边缘设备(如物联网网关、家用路由器、5GCPE等)乃至一些弱计算能力的终端上实现推理/分类功能。
c)成本问题。在训练和推理阶段,计算资源(处理器/内存/Flash)、时间、人力等成本消耗与分类性能之间如何求得平衡。
d)可信问题。如何解决 AI-TC 模型的“黑盒子”问题,让分类模型的使用者(比如运营商)信任模型。
e)演进问题。如何解决因业务/应用/攻击的“快速演进”而造成的分类模型“慢半拍”以及“道高一尺、魔高一丈”问题,比如新应用、Zero-day攻击、“流变种”等。
f)数据/模型隐私问题。如何防范数据集的敏感数据泄露以及攻击者对分类模型的反推解构乃至对分类模型实施攻击等问题。
本文针对以上 AI-TC 所面临的挑战,提出一个通用的端到端 AI-TC 的工作流程;并给出 AI-TC 的需求和设计原则的定义、应用场景;然后围绕 AI-TC 的工作流程,细化并总结当前面临的各项挑战及研究进展;最后提出AI大模型赋能网络流量分类的设想以及存在的困难。