CN116128024A

CN116128024A - 多视角对比自监督属性网络异常点检测方法

Info

Publication number: CN116128024A
Application number: CN202211445037.6A
Authority: CN
Inventors: 冯潞飞; 孙越恒; 王文俊; 邵明来
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2023-05-16

Abstract

本发明公开了一种多视角对比自监督属性网络异常点检测方法，结合属性网络的节点结构和属性信息特征，提出了一种新的对比实例对，将多视角采样应用到对比学习异常检测中，从而使网络异常检测可以同时抓住结构上的异常和属性上的异常。主要包括：对属性网络进行异常注入；进行多视角采样得到多视角对比实例对；设计并训练多视角图神经网络对比学习模型；使用训练好的对比学习模型进行推理阶段，计算异常得分；通过异常得分，判断节点是否异常，进行异常节点的标记。通过在各种数据集上进行了广泛的实验，该方法除能够有效提升异常检测准确度外，也能够挖掘网络中存在的有实际意义的异常。

Description

多视角对比自监督属性网络异常点检测方法

技术领域

本发明涉及网络安全领域，尤其涉及一种多视角对比自监督属性网络异常点检测方法。

背景技术

近年来，已有大量的研究关注属性网络异常检测任务，属性网络异常检测方法主要分为传统的非深度异常检测和深度异常检测两种。

传统的非深度异常检测采用不同的分解策略从图结构和节点属性中提取有价值的信息，然后通过评分函数或残差分析发现异常节点，重点使用了矩阵分解(MF)技术。AMEN[1]考虑了每个节点的自我网络信息，并发现了属性网络上的异常邻域。此外，一些研究专注于发现节点特征子空间中的异常节点。ANOMALOUS[2]进一步将CUR分解纳入到残差分析中，以减轻噪声特征对异常检测的不利影响。然而，这些方法受到其浅层机制的限制，无法处理属性网络的关键问题，如网络稀疏性、数据非线性和不同信息源之间的复杂模式互动和计算挑战。随着用于异常检测的深度学习的飞速发展，研究人员提出了基于深度学习的方法来解决属性网络上的异常检测问题。

最近，深度学习成为人工智能和机器学习中极为重要的部分，在提取数据中潜在复杂模式表现出优越的性能，在音频、图像和自然语言处理等领域得到了广泛应用。深度学习方法能够有效处理复杂的属性信息，并且可以从数据中学习隐含的规律。以下是常用的深度异常检测方法：

基于网络表示学习：将图形结构编码到嵌入式向量空间中，将邻居信息聚合到中心节点，通过训练损失函数找到异常节点和正常节点边缘之间的相对尺度。

基于图卷积神经网络：节点的表示通过GCN层生成，然后根据其神经网络的重建(此时重建损失作为异常分数)或者嵌入空间的分布(此时根据密度估计进行异常排名)来检测异常。DOMINANT[3]构造图自动编码器同时重构属性和结构信息，并通过重构误差对异常进行评估。

基于图注意力网络：给定输入图，对于图上任意顶点都用注意力机制来学习节点嵌入。无监督技术AnomalyDAE[4]根据重建损失对每个节点进行评分，并将top-k节点标记为异常。

基于对比学习：通过对比正实例对和负实例对来学习节点。设计一个对比学习模型来学习节点-子图实例对的向量表示，通过判别器对节点进行异常得分计算。

[参考文献]

[1]Perozzi B,Akoglu L.Scalable anomaly ranking of attributedneighborhoods[C].In Proceedings of the 2016SIAM International Conference onData Mining,2016:207–215.

[2]Peng Z,Luo M,Li J,et al.ANOMALOUS:A Joint Modeling Approach forAnomaly Detection on Attributed Networks.[C].In IJCAI,2018:3513–3519.

[3]Ding K,Li J,Bhanushali R,et al.Deep anomaly detection onattributed networks[C].In Proceedings of the 2019SIAM InternationalConference on Data Mining,2019:594–602.

[4]Fan H,Zhang F,Li Z.AnomalyDAE:Dual autoencoder for anomalydetection on attributed networks[C].In ICASSP 2020-2020IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP),2020:5685–5689.

发明内容

由于传统的属性网络异常检测算法无法处理大规模数据，忽略特征属性信息，深度学习算法虽处理特征信息更加强大，但这些工作大多是以学习数据表示为目的，而不直接针对检测异常。因此，本发明提出了一种多视角对比自监督属性网络异常点检测方法，以实现对大规模属性网络的异常检测。

为了解决上述技术问题，本发明提出的一种多视角对比自监督属性网络异常点检测方法，包括以下步骤：

步骤一、对属性网络进行异常注入，包括，结构异常注入和属性异常注入；

步骤二、进行多视角采样得到多视角对比实例对，包括：

2-1)对异常注入之后的属性网络进行目标节点的选择，随机的遍历该属性网络中的每个节点作为目标节点；

2-2)通过一个采样器，分别基于结构重要性和属相相似度对同一个目标节点进行子采样得到与该目标节点对应的局部子图1和局部子图2，基于结构重要性记为视角1，基于属相相似度记为视角2；在得到局部子图1的过程中，通过引入的广度优先参数p和深度优先参数q用于控制游走，p>1，q<1，在得到局部子图2的过程中，通过计算该目标节点的属性相似度控制游走；

2-3)对步骤2-2)得到两个局部子图进行匿名化，将目标节点的属性向量设为零向量；

2-4)将匿名化的目标节点与局部子图1合并成一组实例对，将匿名化的目标节点与局部子图2合并成另一组实例对；将上述两组实例对的正样例对和负样例对分别保存到相应的两个样本池中；

步骤三、设计并训练多视角图神经网络对比学习模型，包括：

3-1)设计多视角图神经网络对比学习模型，该多视角图神经网络对比学习模型包括多视角图神经网络模块、读出模块和鉴别器模块；所述多视角图神经网络模块通过两个图卷积神经网络分别得到两个视角的子图表示和目标节点表示；所述读出模块将子图表示变为子图向量表示，使用平均池函数作为读出函数；所述鉴别器模块使用双线性评分函数对比实例对中的节点向量表示和子图向量表示；

3-2)初始化所述的多视角图神经网络对比学习模型的参数(W⁽⁰⁾，W^(L)，W^(d))，W为判别器权值矩阵；利用二元分类目标函数对该对比学习模型进行训练，得到用于训练的节点的预测分数，并利用该预测分数和二元分类目标函数反向传播更新对比学习模型参数；

步骤四、使用训练好的对比学习模型进行推理阶段，使用更新后的对比学习模型参数同时使用二元分类目标函数得到节点的预测分数，通过多轮计算取平均值得到最后异常得分；

步骤五、将异常得分为0.5±0.05的目标节点视为异常节点，将异常节点标记为1，将非异常节点标记为0。

进一步讲，本发明所述的多视角对比自监督属性网络异常点检测方法，其中：

步骤2-4)中：所述两组实例对表示如下：

式(1)中，

是视角1对应的实例对，

是视角2对应的实例对，

为视角1目标节点，

为视角2目标节点，

为局部子图2，

为局部子图1，

是视角1实例对的标签，其中，

表示

是负实例对，

表示

是正实例对。

是视角2实例对的标签，其中，

表示

是负实例对，

表示

是正实例对。

步骤3-1)中：式(2)示出了所述的子图表示：

式(2)中，

为隐藏层表示矩阵，

为隐藏层权值矩阵，

是子图邻接矩阵，φ是激活函数，

是子图的度矩阵；

式(3)示出了所述的目标节点表示：

式(3)中，

分别为由层(l-1)和第层(l)学习的目标节点的隐藏表示行向量，将输入

定义为目标节点的属性行向量，并将输出标记为目标节点向量表示

所述的读出函数如式(4)所示：

式(4)中，

为子图表示向量，(E_i)子图表示矩阵，(E_i)_k是(E_i)的第k行，Readout表示读出函数。

步骤3-2)中，通过式(5)和式(6)计算用于训练的节点的预测分数：

式(5)和式(6)中，

表示视角1目标节点的预测分数，Discriminator是双线性评分函数，

表示视角1目标节点向量表示，

表示视角2子图向量表示，

为视角1判别器权值矩阵，σ是S形函数；

表示视角2目标节点的预测分数，

表示视角2目标节点向量表示，

表示视角1子图表示向量，

为视角2判别器权值矩阵。

步骤三和步骤四中，所述的二元分类目标函数如下：

式(7)中，CLM()是多视角图神经网络对比学习模型。

步骤四中，所述的异常得分计算公式如下：

式(8)中，f()是异常评分映射函数，

是视角1负实例对的预测分数，

是视角1正实例对的预测分数，

是视角2负实例对的预测分数，

是视角2正实例对的预测分数。

与现有技术相比，本发明的有益效果是：

将本发明提出的多视角对比自监督属性网络异常点检测方法(本发明中简称为MV-CoLA)方法与四种属性网络异常检测方法(一种基于属性网络异常检测的联合建模方法-ANOMALOUS，属性网络深度深度异常检测方法-DOMINANT，图深度最大化互信息方法-DGI，对比自监督学习属性网络异常检测方法-CoLA)进行了比较。AUC值：ROC曲线是根据地面真实异常标签和异常检测结果，真阳性率(异常识别为异常)与假阳性率(正常节点识别为异常)的图。AUC值为ROC曲线下的面积，表示随机选择的异常节点排名高于正常节点的概率。AUC接近于1，表示该方法具有较高的性能。通过计算ROC曲线下面积，不同对比方法在6个数据集的AUC值如表3所示，在所有6个数据集上，本发明方法均取得了最好的异常检测性能。本发明方法与对比方法CoLA的最佳结果相比，平均AUC均得到了提高。主要原因是本发明方法中通过多视角实例对采样成功地捕获了每个节点与其局部子图之间的关系和属性特征，利用多视角的GNN的对比学习模型从上下文和结构信息中计算异常分数。

附图说明

图1是本发明多视角对比自监督属性网络异常点检测方法框图；

图2是图1中所示多视角采样示意图；

图3是本发明多视角对比自监督属性网络异常点检测方法流程图；

图4是本发明实施例中6000个节点的局部论文合作网络异常检测结果；

图5-1和图5-2是本发明实施例中排名前1000的异常节点对应所属机构分布。

具体实施方式

本发明提出一种多视角对比自监督属性网络异常点检测方法的设计构思是：结合属性网络的节点结构和属性信息特征，提出了一种新的对比实例对，将多视角采样应用到对比学习异常检测中，从而使网络异常检测可以同时抓住结构上的异常和属性上的异常，将本发明方法在各种数据集上进行了广泛的实验，证明该方法优于许多对比方法，除能够有效提升异常检测准确度外，还能够挖掘网络中存在的有实际意义的异常。

下面结合附图及具体实施例对本发明做进一步的说明，但下述实施例绝非对本发明有任何限制。

如图1和图3所示本发明提出的一种多视角对比自监督属性网络异常点检测方法，主要包括以下步骤：

步骤一、对属性网络进行异常注入；

步骤二、进行多视角采样得到多视角对比实例对；

步骤三、设计并训练多视角图神经网络对比学习模型；

步骤四、使用训练好的对比学习模型进行推理阶段，计算异常得分；

步骤五、通过异常得分，判断节点是否异常，进行异常节点的标记。

各步骤详细描述如下：

步骤一：输入属性网络，进行异常注入，包括结构异常注入和属性异常注入。

将NNSF数据集处理成本方法需要的数据格式，由于NNSF数据集含有真实异常标签，不需要对数据集进行异常注入。

本实施例在6个广泛使用的数据集上评估了MV-CoLA方法。这些数据集包括两个社交网络数据集和四个引文网络数据集。数据集详情见表1。由于在上述数据集中没有真实异常，需要将异常注入到属性网络中。结构异常注入，将团大小指定为中m后，从网络中随机选择中m个节点，使这些节点完全连接，然后将团中的中m个节点视为异常。迭代地重复这个过程，直到生成中n个团，结构异常的总数为中m×n。属性异常注入，首先随机选择另一个中m×n个节点作为属性扰动候选。对于每个选择的节点中i，从数据中随机选取另一个i个节点，通过最大化欧氏距离中||x_{_{i}}-x_{_{j}}||^{2}，选择k个节点中属性与节点i偏差最大的节点j。然后，将节点x_{_{i}}的属性更改为x_{_{j}}。输入MV-CoLA方法参数，训练周期T，批次大小：B，采样轮数R，游走概率p,q。

表1、6个实验数据集

数据集	节点	边	属性	异常
					Cora	2,708	5,429	1,433	150
Citeseer	3,327	4,732	3,703	150
					BlogCatalog	5,196	171,743	8,189	300
Flickr	7,575	239,738	112,407	450
					ACM	16,484	71,980	8,337	600
Pubmed	19,717	44,338	500	600

社交网络：BlogCatalog和Flickr，在这些数据集中，节点表示网站的用户，边表示用户之间的关系。在社交网络中，用户通常会生成个性化的内容，如发布博客或分享带有标签描述的照片，这些文本内容被视为节点属性。

引文网络：Cora、citeseer、Pubmed、ACM是四个可用的公共数据集，它们由科学出版物组成。在这些网络中，节点表示已发表的论文，而边表示论文之间的引文关系。

卷积层数设置为1。嵌入维数设定为64。每个数据集的批次大小B被设置为300。BlogCatalog、Flickr和ACM数据集的训练周期T为400，Cora、Citeseer和Pubmed数据集的训练周期T为100。Cora、Citeseer、Pubmed和Flickr的学习率为0.001，BlogCatalog和ACM的学习率分别设置为0.003和0.0005。

步骤二、进行多视角采样得到多视角对比实例对。

首先进行目标节点的选择，随机的遍历图中的每个节点作为目标节点。然后进行多视角采样，通过一个采样器，从两个视角对相同的节点进行子采样，采样器由两种采样方法进行局部子图采样。第一个视角(基于结构重要性，即视角1)采样方法引入两个参数p(广度优先BFS)和q(深度优先DFS)控制游走策略。p和q值不同时，采样子图不同。如果p>1，游走倾向于节点邻居，反映出BFS特性如果q<1游走会倾向于往远处跑，反映出DFS特性。同时控制p，q得到基于结构重要性采样的局部子图1。第二个视角(基于属相相似度，即视角2)采样根据计算节点属性相似度进行游走。具体步骤如图2所示。其次匿名化，将初始节点的属性向量设为零向量，防止对比学习模型容易识别局部子图中目标节点的存在。最后组合成实例对，构建上述基于多视角互相融合的多视角对比实例对，将视角1的目标节点和局部子图2合并成一组实例对，另一组实例对则由局部子图1和视角2的目标节点构成，将两组实例对的正样例对(目标节点实例对)和负样例对(目标节点以外的实例对)分别保存到相应的样本池中。

受视觉表示学习的多视角对比学习最新进展的启发，通过最大化一个视角的节点表示和另一个视角的图表示之间的互信息来学习节点和图表示，与对比全局或多视角相比，两个视角对比可以获得更好的节点表示。由此，本发明设计了一种新的多视角对比学习方法，通过一个采样器，从两个视角对相同的节点进行子采样，子采样由两个有效的游走机制组成，结合了带属性随机游走和带结构随机游走的优点。其中节点不仅具有网络连接A的特征，还具有节点属性X所描述的丰富辅助信息。联合采样A和X将使随机游走更有信息性。采样分为四个步骤：目标节点选择、多视角采样、匿名化和组合成实例对。

2-1)目标节点选择。对异常注入(本实施例中无需)之后的属性网络进行目标节点的选择，随机的遍历该属性网络中的每个节点作为目标节点。

2-2)多图采样。通过一个采样器，分别从两个视角，即视角1是基于结构重要性和视角2是基于属相相似度，对同一个目标节点进行子采样，得到与该目标节点对应的基于结构重要性视角1的局部子图1和基于属相相似度视角2的局部子图2。

采样器由两个随机游走方法作为局部子图采样策略，在得到局部子图1的过程中，通过引入的广度优先参数p和深度优先参数q用于控制游走，p>1，q<1。在得到局部子图2的过程中，通过计算该目标节点的属性相似度控制游走，如图2所示。

2-3)匿名化，匿名化的目的是防止对比学习方法容易识别局部子图中目标节点的存在。对步骤2-2)得到两个局部子图进行匿名化，将目标节点的属性向量设为零向量。

2-4)组合成实例对。将匿名化的目标节点和子图合并成一组实例对，具体是：将匿名化的目标节点与局部子图1合并成一组实例对，将匿名化的目标节点与局部子图2合并成另一组实例对；将上述两组实例对的正样例对和负样例对分别保存到相应的两个样本池中。

所述两组实例对表示如下：

式(1)中，

是视角1对应的实例对，

是视角2对应的实例对，

为视角1目标节点，

为视角2目标节点，

为局部子图2，

为局部子图1，

是视角1实例对的标签，其中，

表示

是负实例对，

表示

是正实例对。

是视角2实例对的标签，其中，

表示

是负实例对，

表示

是正实例对。

步骤三、设计并训练多视角图神经网络对比学习模型，更新多视角图神经网络对比学习模型。

采样的多视角对比实例对用于训练多视角图神经网络对比学习模型。多视角图神经网络对比学习模型由三个主要组件组成：多视角图神经网络模块、读出模块和鉴别器模块。其中多视角图神经网络模块通过两个图卷积神经网络模块分别得到两个视角的子图表示。读出模块将子图表示变为向量表示，使用平均池函数作为的读出函数。鉴别器模块使用双线性评分函数对比了一个实例对中的两个元素的嵌入，并输出最终的预测分数。最后通过整合多视角图神经网络模块、读出模块和鉴别器模块三个组件，将多视角图神经网络对比学习模型作为一个二元分类目标函数来预测对比实例对的标签。具体描述如下：

3-1)设计多视角图神经网络对比学习模型，该多视角图神经网络对比学习模型包括多视角图神经网络模块、读出模块和鉴别器模块。

多视角图神经网络模块。目标是聚合局部子图中节点之间的信息，并将高维属性转移到低维嵌入空间中。本发明设计两个图卷积神经网络分别得到两个视角的子图表示。

其中，

为隐藏层表示矩阵，

为学习参数，本发明采用GCN，那么上述等式可以具体写成：

式(2)中，

为隐藏层表示矩阵，

为隐藏层权值矩阵，

是子图邻接矩阵，φ是激活函数，

是子图的度矩阵。

目标节点表示：

式(3)中，

读出模块。目标是将子图表示变为向量表示。为了简化，使用平均池函数作为的读出函数，读出函数写如下：

式(4)中，

鉴别模块。鉴别模块是的对比学习方法的核心组成部分。它对比了一个实例对中的两个元素的嵌入，使用双线性评分函数对比实例对中的节点向量表示和子图向量表示。

通过式(5)和式(6)计算用于训练的节点的预测分数：

式(5)和式(6)中，

表示视角1目标节点向量表示，

表示视角2子图向量表示，

为视角1判别器权值矩阵，σ是S形函数；

表示视角2目标节点的预测分数，

表示视角2目标节点向量表示，

表示视角1子图表示向量，

为视角2判别器权值矩阵。

本发明中，通过整合上述三个组件，提出的基于图神经网络的对比学习方法作为一个二元分类方法来预测对比实例对的标签，所述的二元分类目标函数如下：

式(7)中，CLM()是多视角图神经网络对比学习模型。

步骤四、使用训练好的对比学习模型进行推理阶段，使用更新后的对比学习模型参数同时通过一个分类器使用二元分类目标函数得到节点的预测分数，通过多轮计算取平均值得到最后异常得分。

在对比学习方法经过良好的训练后，通过分类器得到一个视角的节点表示和另一个视角的子图表示之间的一致性。在理想条件下，对于一个正常节点，其正对s⁽⁺⁾的预测得分应接近1，而负对s^(-)应接近0。对于一个异常节点，方法不能很好地区分其匹配模式，其正负对的预测得分较差(接近0.5)。

式(8)中，f()是异常评分映射函数，

是视角1负实例对的预测分数，

是视角1正实例对的预测分数，

是视角2负实例对的预测分数，

是视角2正实例对的预测分数。

本实施例中，计算256轮异常得分取平均值得到节点的异常得分，如果分数接近0.5，那么这个节点将视为异常。将MV-CoLA方法与四种属性网络异常检测方法(ANOMALOUS，DOMINANT，DGI，CoLA)进行了比较。AUC值：ROC曲线是根据地面真实异常标签和异常检测结果，真阳性率(异常识别为异常)与假阳性率(正常节点识别为异常)的图。AUC值为ROC曲线下的面积，表示随机选择的异常节点排名高于正常节点的概率。AUC接近于1，表示该方法具有较高的性能。通过计算ROC曲线下面积，不同对比方法在6个数据集的AUC值如表2所示，在所有6个数据集上，本方法都取得了最好的异常检测性能。

表2

方法	Cora	Citeseer	BlogCatalog	Flickr	ACM	Pubmed
							ANOMALOUS	0.5770	0.6307	0.7237	0.7434	0.7038	0.7316
DOMINANT	0.8155	0.8251	0.7468	0.7442	0.7601	0.8081
							DGI	0.7532	0.8293	0.5827	0.6237	0.6240	0.6962
CoLA	0.9043	0.8965	0.7854	0.7620	0.8237	0.9512
							MV-CoLA	0.9162	0.9294	0.8035	0.7813	0.8502	0.9620

将本发明应用到真实场景中检测异常，对节点的异常分数进行排名，选取前节点进行分析，找到这些节点对应的原自科数据集对应的作者名称和所在机构，探究自科项目数据蕴含规律。

将MV-CoLA应用在百万大规模网络NNSF数据集-国家自然科学基金(NationalNatural Science Foundation)数据集收录2000年至2021年共2052家研究机构789,669名学者的论文和对应的基金项目信息，共计763,311篇。研究领域按照国家学科分类，涵盖化学、生物、建筑、农业、计算机等各个领域。该数据集详情见表3。

表3

数据集	节点	边	属性	异常
					NNSF	1,521,995	7,555,319	1,405	2,0785

图4展示具有6000个节点的局部论文合作网络，图中灰色圆点是值筛选出的异常节点。网状结构为论文作者合作网络。从图中可以发现，论文作者合作网络具有小世界属性，任职于同一研究机构的研究人员之间形成较小的社团网络，人员在社团内部练习紧密，社团外部学术交流相对较少。图5-1和图5-2展示排名前1000的异常节点对应所属机构分布，统计分析发现，985高校研究人员占比最多，其中，北京大学，清华大学，中山大学和中科院研究机构参与自科项目的人员占比很高。其他非985普通高校占比20％。东南大学，大连理工大学等985高校参与自科项目的人员占比较低。

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。