TKDD 2023 | 综述：图挖掘技术在网络安全中的应用

本文是一篇综述性文章，重点介绍了基于图的网络安全应用。该文章旨在为基于图挖掘的网络安全解决方案的快速设计提供整体参考，并帮助后续研究人员避免重复工作。作者对网络安全数据集收集与图构建、可信图模型与鲁棒性、数据安全与隐私、大规模图与并行化以及攻击关联分析与溯源等未来研究方向进行了总结。

论文链接：

https://dl.acm.org/doi/10.1145/3610228

一、引言

随着互联网的发展，各种网络攻击不断发生，不仅给个人和企业带来巨大损失，也对国家构成严重威胁。网络安全已成为影响全球风险的关键因素，引起了学术界和业界的广泛关注。为了对抗网络攻击，基于ML的方法已被广泛用于网络安全应用。尽管这些基于ML的方法在网络安全应用中取得了成功，但现实世界的网络实体之间存在许多显式或隐式的关联，如Android应用程序中的API调用关系，这可以表征网络犯罪分子的结构模式。传统的基于ML的方法很难捕捉到这些相关性，这极大地降低了某些任务的性能。图挖掘技术善于挖掘网络实体的语义信息和空间相关性，以更好地检测网络攻击，近年来被越来越多地应用于网络安全。本文是一篇针对基于图的网络安全应用的综述性文章，它可以为快速设计基于图挖掘的网络安全解决方案提供总体参考，也可以帮助后期研究人员避免重复工作。本综述组织如下：

第2节给出了网络安全任务的分类和描述。
第3节介绍了网络安全任务中使用的典型图挖掘技术。
第4节介绍了图挖掘技术用于网络安全的一般过程。
第5节详细阐述了使用图挖掘技术的网络安全解决方案。
第6节提供了典型的基于图的网络安全公共数据集和工具包。
第7节中，我们指出了图挖掘技术用于网络安全的未来方向。
第8节总结了本综述。

二、网络安全基础

在本综述中，网络安全任务的详细分类如图1所示。具体来说，我们将网络安全任务分为两大类，即应用程序安全和网络基础设施安全。网络基础设施安全侧重于保护互联网的关键基础设施和组件，如域名系统（DNS）、网络链路和路由器，以确保互联网在值得信赖的环境中工作。我们进一步在网络和系统层面对网络基础设施安全进行了分类，其中包括特定的网络和系统安全任务 (例如僵尸网络检测和区块链安全)。应用程序安全旨在保护运行在网络基础设施之上的各种应用程序的安全，并将其进一步划分为认知安全和交易安全。认知安全主要关注各种网络应用（如假新闻和垃圾评论）影响人类认知的安全问题，而交易安全则强调威胁人类资产和金融秩序的在线交易（如金融欺诈和地下市场）中的安全问题。

三、图挖掘技术基础

根据网络安全中使用的图挖掘技术，我们将现有的方法分为两大类。

统计特征。这类方法基于人工构建的高维稀疏统计特征。根据是否利用图的属性信息，统计特征进一步分为结构特征和属性特征。
图嵌入。与统计特征不同，图嵌入将特征向量从稀疏转换为密集，并自动保留结构和属性信息。我们从三个角度给出了图挖掘方法的分类：结构/属性（是否使用属性信息）、浅层/深层（是否使用深度学习）和同构/异构（是否关注异构图）。

这些分类法可以从全面的角度关联不同网络安全任务的特征。例如，一些网络安全任务（如僵尸网络检测）对结构特征敏感，而其他任务（如欺诈检测）则更关注属性信息；恶意软件分析，地下市场分析通常在异构图上进行，函数调用关系通常被构造为同构图。图4给出了网络安全中使用的图挖掘技术的详细分类。

四、图挖掘技术用于网络安全的一般步骤

基于图的网络安全解决方案的一般过程主要包括五个步骤。首先，我们应该关注各种网络攻击中的一个特定的网络安全任务（如僵尸网络检测），并分析任务属性，给出明确的任务划分。然后，对于混合了各种实体的复杂网络空间，我们应该收集和处理支持任务属性的数据。基于任务分解和处理后的数据，可以构建针对特定应用的图结构，捕捉相关网络实体之间丰富的交互，这也是关键的一步，表2给出了一些常用的图结构。接下来，应该为这项任务仔细设计一个优化模型。最后，将通过相应的指标对所提出的模型进行评估，并在现实世界场景中进一步部署。

五、基于图挖掘技术的网络安全方案

基于图1对网络安全任务的分类，本节依次阐述了各种网络安全任务中使用的图挖掘技术。对于每个任务，我们总结了常用图类型，图方法，任务级别以及相应论文（如表5所示）。我们也直观展示了每个任务中图挖掘技术的一般应用流程（如图8所示）。更多详细内容请参考综述完整版本。

六、开源数据集和工具包

本综述也总结了图挖掘用于网络安全的开源数据集（表7(部分)）和工具包。图挖掘工具包包括PYG，CogDL，DGL，OpenHGNN，GammaGL等。网络安全数据收集工具包括Twitter Search API，Snopes，VirusTotal等。

七、未来研究方向

本综述总结了五大未来的研究方向。主要包括：

网络安全数据集收集及图构建。现有基于图的基准网络安全数据集比较少。有了数据，图构建也是网络安全任务中非常重要的一环，直接影响下游任务的效果。*
可信图模型和鲁棒性。现有的模型虽然有了高性能，但缺乏对模型的可信度和鲁棒性的考虑，比如可解释性，图模型的zero-day 攻击等。
数据安全和隐私。网络安全中的真实世界数据集通常包含许多私人信息，如用户帐户和密码，这使得深度和全面的数据共享变得困难。因此，有必要研究在不泄露敏感参数的情况下，适用于网络安全数据的图协同分析架构。
大规模图和并行化。网络空间实体之间的实时交互使构建的图具有动态性和大规模特点。随着网络空间实体的交互不断增加，有必要将可扩展的图模型和大规模部署策略纳入网络安全解决方案。
攻击关联分析和溯源。目前，很少有研究人员利用图挖掘技术在相关性分析中的优势来关联和识别攻击者（或攻击组织）。利用图挖掘技术，基于海量的组织信息，挖掘攻击组织之间的深层关联，并利用这些关联进行网络攻击溯源，是一个很有前途的研究方向。

作者：闫博

来源：公众号【北邮 GAMMA Lab】

Illustration by IconScout Store from IconScout