基于深度学习的DGA恶意域名检测

本文版权为《邮电设计技术》所有，如需转载请联系《邮电设计技术》编辑部

摘要：攻击者常使用域名生成算法（DGA）生成大量的随机域名来传输恶意软件控制指令，而传统DGA检测方法存在计算量大、检测精确度低等问题，采用机器学习和深度学习的方法可极大缓解上述问题。首先从域名的基本特征、语言特征和统计特征3个方面对DGA域名和正常域名进行特征提取，在特征集上采用机器学习算法进行模型训练；同时，采用长短期记忆（LSTM）网络以域名字符串的嵌入向量作为输入，提取域名的深度特征进行域名检测。通过查准率、召回率、F1-score、ROC曲线、AUC值等评测指标对模型训练结果进行对比，获得较优的DGA域名检测模型。

关键词：域名生成算法；机器学习；深度学习；域名检测

doi：10.12045/j.issn.1007-3043.2024.08.003

引言

大多数僵尸网］依赖集中C&C服务器，一旦C&C域名被识别拆除，僵尸主机将失去对整个僵尸网络的控制。因此，攻击者常会利用域名生成算法（DGA）生成大量随机域名为恶意程序和命令控制服务器建立通信，以提升C&C服务器逃避检测的能力。传统的DGA检测方法，如黑名单过滤法和逆向恶意样本DGA算法，存在检测准确率不高、实际应用中难以实现等问题。因此，采用机器学习方法对DNS域名服务器数据进行分析和检测已成为当前的研究热点。该方法主要基于域名服务器流量或域名语言统计特征进行机器学习完成DGA域名的标识和分类。但设计人工特征是一个非常耗时的工作，且需随着域名生成算法的更新而不断更新。因此，深度学习算法开始被应用于自动检测DGA域名，例如以域名字符串的嵌入向量为输入的动态卷积算法模型能显著提高检测准确率，但是这类模型通过捷径学习进行特征提取，在对抗样本下十分脆弱。

针对上述问题，某省联通分别采用了机器学习和深度学习的方法来检测分析DGA域名，通过对比试验，选出较优的方法应用于日常威胁检测工作中。在机器学习方面，通过从域名的基本特征、语言特征和统计特征3个方面形成的数据集进行训练；在深度学习方面，采用长短期记忆（LSTM）网络，以域名字符串的嵌入向量作为输入，提取域名的深度特征并进行域名检测。通过两者的对比分析，某省联通找到适合DGA域名自动检测的分类模型。

点击查看全文（PDF）>

基于深度学习的DGA恶意域名检测

相关

扫二维码关注C114微信