CN116128024A - 多视角对比自监督属性网络异常点检测方法 - Google Patents

多视角对比自监督属性网络异常点检测方法 Download PDF

Info

Publication number
CN116128024A
CN116128024A CN202211445037.6A CN202211445037A CN116128024A CN 116128024 A CN116128024 A CN 116128024A CN 202211445037 A CN202211445037 A CN 202211445037A CN 116128024 A CN116128024 A CN 116128024A
Authority
CN
China
Prior art keywords
view
target node
attribute
node
subgraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211445037.6A
Other languages
English (en)
Inventor
冯潞飞
孙越恒
王文俊
邵明来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202211445037.6A priority Critical patent/CN116128024A/zh
Publication of CN116128024A publication Critical patent/CN116128024A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种多视角对比自监督属性网络异常点检测方法,结合属性网络的节点结构和属性信息特征,提出了一种新的对比实例对,将多视角采样应用到对比学习异常检测中,从而使网络异常检测可以同时抓住结构上的异常和属性上的异常。主要包括:对属性网络进行异常注入;进行多视角采样得到多视角对比实例对;设计并训练多视角图神经网络对比学习模型;使用训练好的对比学习模型进行推理阶段,计算异常得分;通过异常得分,判断节点是否异常,进行异常节点的标记。通过在各种数据集上进行了广泛的实验,该方法除能够有效提升异常检测准确度外,也能够挖掘网络中存在的有实际意义的异常。

Description

多视角对比自监督属性网络异常点检测方法
技术领域
本发明涉及网络安全领域,尤其涉及一种多视角对比自监督属性网络异常点检测方法。
背景技术
近年来,已有大量的研究关注属性网络异常检测任务,属性网络异常检测方法主要分为传统的非深度异常检测和深度异常检测两种。
传统的非深度异常检测采用不同的分解策略从图结构和节点属性中提取有价值的信息,然后通过评分函数或残差分析发现异常节点,重点使用了矩阵分解(MF)技术。AMEN[1]考虑了每个节点的自我网络信息,并发现了属性网络上的异常邻域。此外,一些研究专注于发现节点特征子空间中的异常节点。ANOMALOUS[2]进一步将CUR分解纳入到残差分析中,以减轻噪声特征对异常检测的不利影响。然而,这些方法受到其浅层机制的限制,无法处理属性网络的关键问题,如网络稀疏性、数据非线性和不同信息源之间的复杂模式互动和计算挑战。随着用于异常检测的深度学习的飞速发展,研究人员提出了基于深度学习的方法来解决属性网络上的异常检测问题。
最近,深度学习成为人工智能和机器学习中极为重要的部分,在提取数据中潜在复杂模式表现出优越的性能,在音频、图像和自然语言处理等领域得到了广泛应用。深度学习方法能够有效处理复杂的属性信息,并且可以从数据中学习隐含的规律。以下是常用的深度异常检测方法:
基于网络表示学习:将图形结构编码到嵌入式向量空间中,将邻居信息聚合到中心节点,通过训练损失函数找到异常节点和正常节点边缘之间的相对尺度。
基于图卷积神经网络:节点的表示通过GCN层生成,然后根据其神经网络的重建(此时重建损失作为异常分数)或者嵌入空间的分布(此时根据密度估计进行异常排名)来检测异常。DOMINANT[3]构造图自动编码器同时重构属性和结构信息,并通过重构误差对异常进行评估。
基于图注意力网络:给定输入图,对于图上任意顶点都用注意力机制来学习节点嵌入。无监督技术AnomalyDAE[4]根据重建损失对每个节点进行评分,并将top-k节点标记为异常。
基于对比学习:通过对比正实例对和负实例对来学习节点。设计一个对比学习模型来学习节点-子图实例对的向量表示,通过判别器对节点进行异常得分计算。
[参考文献]
[1]Perozzi B,Akoglu L.Scalable anomaly ranking of attributedneighborhoods[C].In Proceedings of the 2016SIAM International Conference onData Mining,2016:207–215.
[2]Peng Z,Luo M,Li J,et al.ANOMALOUS:A Joint Modeling Approach forAnomaly Detection on Attributed Networks.[C].In IJCAI,2018:3513–3519.
[3]Ding K,Li J,Bhanushali R,et al.Deep anomaly detection onattributed networks[C].In Proceedings of the 2019SIAM InternationalConference on Data Mining,2019:594–602.
[4]Fan H,Zhang F,Li Z.AnomalyDAE:Dual autoencoder for anomalydetection on attributed networks[C].In ICASSP 2020-2020IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP),2020:5685–5689.
发明内容
由于传统的属性网络异常检测算法无法处理大规模数据,忽略特征属性信息,深度学习算法虽处理特征信息更加强大,但这些工作大多是以学习数据表示为目的,而不直接针对检测异常。因此,本发明提出了一种多视角对比自监督属性网络异常点检测方法,以实现对大规模属性网络的异常检测。
为了解决上述技术问题,本发明提出的一种多视角对比自监督属性网络异常点检测方法,包括以下步骤:
步骤一、对属性网络进行异常注入,包括,结构异常注入和属性异常注入;
步骤二、进行多视角采样得到多视角对比实例对,包括:
2-1)对异常注入之后的属性网络进行目标节点的选择,随机的遍历该属性网络中的每个节点作为目标节点;
2-2)通过一个采样器,分别基于结构重要性和属相相似度对同一个目标节点进行子采样得到与该目标节点对应的局部子图1和局部子图2,基于结构重要性记为视角1,基于属相相似度记为视角2;在得到局部子图1的过程中,通过引入的广度优先参数p和深度优先参数q用于控制游走,p>1,q<1,在得到局部子图2的过程中,通过计算该目标节点的属性相似度控制游走;
2-3)对步骤2-2)得到两个局部子图进行匿名化,将目标节点的属性向量设为零向量;
2-4)将匿名化的目标节点与局部子图1合并成一组实例对,将匿名化的目标节点与局部子图2合并成另一组实例对;将上述两组实例对的正样例对和负样例对分别保存到相应的两个样本池中;
步骤三、设计并训练多视角图神经网络对比学习模型,包括:
3-1)设计多视角图神经网络对比学习模型,该多视角图神经网络对比学习模型包括多视角图神经网络模块、读出模块和鉴别器模块;所述多视角图神经网络模块通过两个图卷积神经网络分别得到两个视角的子图表示和目标节点表示;所述读出模块将子图表示变为子图向量表示,使用平均池函数作为读出函数;所述鉴别器模块使用双线性评分函数对比实例对中的节点向量表示和子图向量表示;
3-2)初始化所述的多视角图神经网络对比学习模型的参数(W(0),W(L),W(d)),W为判别器权值矩阵;利用二元分类目标函数对该对比学习模型进行训练,得到用于训练的节点的预测分数,并利用该预测分数和二元分类目标函数反向传播更新对比学习模型参数;
步骤四、使用训练好的对比学习模型进行推理阶段,使用更新后的对比学习模型参数同时使用二元分类目标函数得到节点的预测分数,通过多轮计算取平均值得到最后异常得分;
步骤五、将异常得分为0.5±0.05的目标节点视为异常节点,将异常节点标记为1,将非异常节点标记为0。
进一步讲,本发明所述的多视角对比自监督属性网络异常点检测方法,其中:
步骤2-4)中:所述两组实例对表示如下:
Figure BDA0003949898160000031
Figure BDA0003949898160000032
式(1)中,
Figure BDA0003949898160000033
是视角1对应的实例对,
Figure BDA0003949898160000034
是视角2对应的实例对,
Figure BDA0003949898160000035
为视角1目标节点,
Figure BDA0003949898160000036
为视角2目标节点,
Figure BDA0003949898160000037
为局部子图2,
Figure BDA0003949898160000038
为局部子图1,
Figure BDA0003949898160000039
是视角1实例对的标签,其中,
Figure BDA00039498981600000310
表示
Figure BDA00039498981600000311
是负实例对,
Figure BDA00039498981600000312
表示
Figure BDA00039498981600000313
是正实例对。
Figure BDA00039498981600000314
是视角2实例对的标签,其中,
Figure BDA00039498981600000315
表示
Figure BDA00039498981600000316
是负实例对,
Figure BDA00039498981600000317
表示
Figure BDA00039498981600000318
是正实例对。
步骤3-1)中:式(2)示出了所述的子图表示:
Figure BDA00039498981600000319
式(2)中,
Figure BDA00039498981600000320
为隐藏层表示矩阵,
Figure BDA00039498981600000321
为隐藏层权值矩阵,
Figure BDA00039498981600000322
是子图邻接矩阵,φ是激活函数,
Figure BDA00039498981600000323
是子图的度矩阵;
式(3)示出了所述的目标节点表示:
Figure BDA00039498981600000324
式(3)中,
Figure BDA00039498981600000325
分别为由层(l-1)和第层(l)学习的目标节点的隐藏表示行向量,将输入
Figure BDA00039498981600000326
定义为目标节点的属性行向量,并将输出标记为目标节点向量表示
Figure BDA00039498981600000327
所述的读出函数如式(4)所示:
Figure BDA00039498981600000328
式(4)中,
Figure BDA0003949898160000041
为子图表示向量,(Ei)子图表示矩阵,(Ei)k是(Ei)的第k行,Readout表示读出函数。
步骤3-2)中,通过式(5)和式(6)计算用于训练的节点的预测分数:
Figure BDA0003949898160000042
Figure BDA0003949898160000043
式(5)和式(6)中,
Figure BDA0003949898160000044
表示视角1目标节点的预测分数,Discriminator是双线性评分函数,
Figure BDA0003949898160000045
表示视角1目标节点向量表示,
Figure BDA0003949898160000046
表示视角2子图向量表示,
Figure BDA0003949898160000047
为视角1判别器权值矩阵,σ是S形函数;
Figure BDA0003949898160000048
表示视角2目标节点的预测分数,
Figure BDA0003949898160000049
表示视角2目标节点向量表示,
Figure BDA00039498981600000410
表示视角1子图表示向量,
Figure BDA00039498981600000411
为视角2判别器权值矩阵。
步骤三和步骤四中,所述的二元分类目标函数如下:
Figure BDA00039498981600000412
式(7)中,CLM()是多视角图神经网络对比学习模型。
步骤四中,所述的异常得分计算公式如下:
Figure BDA00039498981600000413
式(8)中,f()是异常评分映射函数,
Figure BDA00039498981600000414
是视角1负实例对的预测分数,
Figure BDA00039498981600000415
是视角1正实例对的预测分数,
Figure BDA00039498981600000416
是视角2负实例对的预测分数,
Figure BDA00039498981600000417
是视角2正实例对的预测分数。
与现有技术相比,本发明的有益效果是:
将本发明提出的多视角对比自监督属性网络异常点检测方法(本发明中简称为MV-CoLA)方法与四种属性网络异常检测方法(一种基于属性网络异常检测的联合建模方法-ANOMALOUS,属性网络深度深度异常检测方法-DOMINANT,图深度最大化互信息方法-DGI,对比自监督学习属性网络异常检测方法-CoLA)进行了比较。AUC值:ROC曲线是根据地面真实异常标签和异常检测结果,真阳性率(异常识别为异常)与假阳性率(正常节点识别为异常)的图。AUC值为ROC曲线下的面积,表示随机选择的异常节点排名高于正常节点的概率。AUC接近于1,表示该方法具有较高的性能。通过计算ROC曲线下面积,不同对比方法在6个数据集的AUC值如表3所示,在所有6个数据集上,本发明方法均取得了最好的异常检测性能。本发明方法与对比方法CoLA的最佳结果相比,平均AUC均得到了提高。主要原因是本发明方法中通过多视角实例对采样成功地捕获了每个节点与其局部子图之间的关系和属性特征,利用多视角的GNN的对比学习模型从上下文和结构信息中计算异常分数。
附图说明
图1是本发明多视角对比自监督属性网络异常点检测方法框图;
图2是图1中所示多视角采样示意图;
图3是本发明多视角对比自监督属性网络异常点检测方法流程图;
图4是本发明实施例中6000个节点的局部论文合作网络异常检测结果;
图5-1和图5-2是本发明实施例中排名前1000的异常节点对应所属机构分布。
具体实施方式
本发明提出一种多视角对比自监督属性网络异常点检测方法的设计构思是:结合属性网络的节点结构和属性信息特征,提出了一种新的对比实例对,将多视角采样应用到对比学习异常检测中,从而使网络异常检测可以同时抓住结构上的异常和属性上的异常,将本发明方法在各种数据集上进行了广泛的实验,证明该方法优于许多对比方法,除能够有效提升异常检测准确度外,还能够挖掘网络中存在的有实际意义的异常。
下面结合附图及具体实施例对本发明做进一步的说明,但下述实施例绝非对本发明有任何限制。
如图1和图3所示本发明提出的一种多视角对比自监督属性网络异常点检测方法,主要包括以下步骤:
步骤一、对属性网络进行异常注入;
步骤二、进行多视角采样得到多视角对比实例对;
步骤三、设计并训练多视角图神经网络对比学习模型;
步骤四、使用训练好的对比学习模型进行推理阶段,计算异常得分;
步骤五、通过异常得分,判断节点是否异常,进行异常节点的标记。
各步骤详细描述如下:
步骤一:输入属性网络,进行异常注入,包括结构异常注入和属性异常注入。
将NNSF数据集处理成本方法需要的数据格式,由于NNSF数据集含有真实异常标签,不需要对数据集进行异常注入。
本实施例在6个广泛使用的数据集上评估了MV-CoLA方法。这些数据集包括两个社交网络数据集和四个引文网络数据集。数据集详情见表1。由于在上述数据集中没有真实异常,需要将异常注入到属性网络中。结构异常注入,将团大小指定为中m后,从网络中随机选择中m个节点,使这些节点完全连接,然后将团中的中m个节点视为异常。迭代地重复这个过程,直到生成中n个团,结构异常的总数为中m×n。属性异常注入,首先随机选择另一个中m×n个节点作为属性扰动候选。对于每个选择的节点中i,从数据中随机选取另一个i个节点,通过最大化欧氏距离中||x_{i}-x_{j}||{2},选择k个节点中属性与节点i偏差最大的节点j。然后,将节点x_{i}的属性更改为x_{j}。输入MV-CoLA方法参数,训练周期T,批次大小:B,采样轮数R,游走概率p,q。
表1、6个实验数据集
数据集 节点 属性 异常
Cora 2,708 5,429 1,433 150
Citeseer 3,327 4,732 3,703 150
BlogCatalog 5,196 171,743 8,189 300
Flickr 7,575 239,738 112,407 450
ACM 16,484 71,980 8,337 600
Pubmed 19,717 44,338 500 600
社交网络:BlogCatalog和Flickr,在这些数据集中,节点表示网站的用户,边表示用户之间的关系。在社交网络中,用户通常会生成个性化的内容,如发布博客或分享带有标签描述的照片,这些文本内容被视为节点属性。
引文网络:Cora、citeseer、Pubmed、ACM是四个可用的公共数据集,它们由科学出版物组成。在这些网络中,节点表示已发表的论文,而边表示论文之间的引文关系。
卷积层数设置为1。嵌入维数设定为64。每个数据集的批次大小B被设置为300。BlogCatalog、Flickr和ACM数据集的训练周期T为400,Cora、Citeseer和Pubmed数据集的训练周期T为100。Cora、Citeseer、Pubmed和Flickr的学习率为0.001,BlogCatalog和ACM的学习率分别设置为0.003和0.0005。
步骤二、进行多视角采样得到多视角对比实例对。
首先进行目标节点的选择,随机的遍历图中的每个节点作为目标节点。然后进行多视角采样,通过一个采样器,从两个视角对相同的节点进行子采样,采样器由两种采样方法进行局部子图采样。第一个视角(基于结构重要性,即视角1)采样方法引入两个参数p(广度优先BFS)和q(深度优先DFS)控制游走策略。p和q值不同时,采样子图不同。如果p>1,游走倾向于节点邻居,反映出BFS特性如果q<1游走会倾向于往远处跑,反映出DFS特性。同时控制p,q得到基于结构重要性采样的局部子图1。第二个视角(基于属相相似度,即视角2)采样根据计算节点属性相似度进行游走。具体步骤如图2所示。其次匿名化,将初始节点的属性向量设为零向量,防止对比学习模型容易识别局部子图中目标节点的存在。最后组合成实例对,构建上述基于多视角互相融合的多视角对比实例对,将视角1的目标节点和局部子图2合并成一组实例对,另一组实例对则由局部子图1和视角2的目标节点构成,将两组实例对的正样例对(目标节点实例对)和负样例对(目标节点以外的实例对)分别保存到相应的样本池中。
受视觉表示学习的多视角对比学习最新进展的启发,通过最大化一个视角的节点表示和另一个视角的图表示之间的互信息来学习节点和图表示,与对比全局或多视角相比,两个视角对比可以获得更好的节点表示。由此,本发明设计了一种新的多视角对比学习方法,通过一个采样器,从两个视角对相同的节点进行子采样,子采样由两个有效的游走机制组成,结合了带属性随机游走和带结构随机游走的优点。其中节点不仅具有网络连接A的特征,还具有节点属性X所描述的丰富辅助信息。联合采样A和X将使随机游走更有信息性。采样分为四个步骤:目标节点选择、多视角采样、匿名化和组合成实例对。
2-1)目标节点选择。对异常注入(本实施例中无需)之后的属性网络进行目标节点的选择,随机的遍历该属性网络中的每个节点作为目标节点。
2-2)多图采样。通过一个采样器,分别从两个视角,即视角1是基于结构重要性和视角2是基于属相相似度,对同一个目标节点进行子采样,得到与该目标节点对应的基于结构重要性视角1的局部子图1和基于属相相似度视角2的局部子图2。
采样器由两个随机游走方法作为局部子图采样策略,在得到局部子图1的过程中,通过引入的广度优先参数p和深度优先参数q用于控制游走,p>1,q<1。在得到局部子图2的过程中,通过计算该目标节点的属性相似度控制游走,如图2所示。
2-3)匿名化,匿名化的目的是防止对比学习方法容易识别局部子图中目标节点的存在。对步骤2-2)得到两个局部子图进行匿名化,将目标节点的属性向量设为零向量。
2-4)组合成实例对。将匿名化的目标节点和子图合并成一组实例对,具体是:将匿名化的目标节点与局部子图1合并成一组实例对,将匿名化的目标节点与局部子图2合并成另一组实例对;将上述两组实例对的正样例对和负样例对分别保存到相应的两个样本池中。
所述两组实例对表示如下:
Figure BDA0003949898160000081
Figure BDA0003949898160000082
式(1)中,
Figure BDA0003949898160000083
是视角1对应的实例对,
Figure BDA0003949898160000084
是视角2对应的实例对,
Figure BDA0003949898160000085
为视角1目标节点,
Figure BDA0003949898160000086
为视角2目标节点,
Figure BDA0003949898160000087
为局部子图2,
Figure BDA0003949898160000088
为局部子图1,
Figure BDA0003949898160000089
是视角1实例对的标签,其中,
Figure BDA00039498981600000810
表示
Figure BDA00039498981600000811
是负实例对,
Figure BDA00039498981600000812
表示
Figure BDA00039498981600000813
是正实例对。
Figure BDA00039498981600000814
是视角2实例对的标签,其中,
Figure BDA00039498981600000815
表示
Figure BDA00039498981600000816
是负实例对,
Figure BDA00039498981600000817
表示
Figure BDA00039498981600000818
是正实例对。
步骤三、设计并训练多视角图神经网络对比学习模型,更新多视角图神经网络对比学习模型。
采样的多视角对比实例对用于训练多视角图神经网络对比学习模型。多视角图神经网络对比学习模型由三个主要组件组成:多视角图神经网络模块、读出模块和鉴别器模块。其中多视角图神经网络模块通过两个图卷积神经网络模块分别得到两个视角的子图表示。读出模块将子图表示变为向量表示,使用平均池函数作为的读出函数。鉴别器模块使用双线性评分函数对比了一个实例对中的两个元素的嵌入,并输出最终的预测分数。最后通过整合多视角图神经网络模块、读出模块和鉴别器模块三个组件,将多视角图神经网络对比学习模型作为一个二元分类目标函数来预测对比实例对的标签。具体描述如下:
3-1)设计多视角图神经网络对比学习模型,该多视角图神经网络对比学习模型包括多视角图神经网络模块、读出模块和鉴别器模块。
多视角图神经网络模块。目标是聚合局部子图中节点之间的信息,并将高维属性转移到低维嵌入空间中。本发明设计两个图卷积神经网络分别得到两个视角的子图表示。
Figure BDA00039498981600000819
其中,
Figure BDA00039498981600000820
为隐藏层表示矩阵,
Figure BDA00039498981600000821
为学习参数,本发明采用GCN,那么上述等式可以具体写成:
Figure BDA00039498981600000822
式(2)中,
Figure BDA00039498981600000823
为隐藏层表示矩阵,
Figure BDA00039498981600000824
为隐藏层权值矩阵,
Figure BDA00039498981600000825
是子图邻接矩阵,φ是激活函数,
Figure BDA00039498981600000826
是子图的度矩阵。
目标节点表示:
Figure BDA00039498981600000827
式(3)中,
Figure BDA00039498981600000828
分别为由层(l-1)和第层(l)学习的目标节点的隐藏表示行向量,将输入
Figure BDA00039498981600000829
定义为目标节点的属性行向量,并将输出标记为目标节点向量表示
Figure BDA00039498981600000830
读出模块。目标是将子图表示变为向量表示。为了简化,使用平均池函数作为的读出函数,读出函数写如下:
Figure BDA0003949898160000091
式(4)中,
Figure BDA0003949898160000092
为子图表示向量,(Ei)子图表示矩阵,(Ei)k是(Ei)的第k行,Readout表示读出函数。
鉴别模块。鉴别模块是的对比学习方法的核心组成部分。它对比了一个实例对中的两个元素的嵌入,使用双线性评分函数对比实例对中的节点向量表示和子图向量表示。
3-2)初始化所述的多视角图神经网络对比学习模型的参数(W(0),W(L),W(d)),W为判别器权值矩阵;利用二元分类目标函数对该对比学习模型进行训练,得到用于训练的节点的预测分数,并利用该预测分数和二元分类目标函数反向传播更新对比学习模型参数;
通过式(5)和式(6)计算用于训练的节点的预测分数:
Figure BDA0003949898160000093
Figure BDA0003949898160000094
式(5)和式(6)中,
Figure BDA0003949898160000095
表示视角1目标节点的预测分数,Discriminator是双线性评分函数,
Figure BDA0003949898160000096
表示视角1目标节点向量表示,
Figure BDA0003949898160000097
表示视角2子图向量表示,
Figure BDA0003949898160000098
为视角1判别器权值矩阵,σ是S形函数;
Figure BDA0003949898160000099
表示视角2目标节点的预测分数,
Figure BDA00039498981600000910
表示视角2目标节点向量表示,
Figure BDA00039498981600000911
表示视角1子图表示向量,
Figure BDA00039498981600000912
为视角2判别器权值矩阵。
本发明中,通过整合上述三个组件,提出的基于图神经网络的对比学习方法作为一个二元分类方法来预测对比实例对的标签,所述的二元分类目标函数如下:
Figure BDA00039498981600000913
式(7)中,CLM()是多视角图神经网络对比学习模型。
步骤四、使用训练好的对比学习模型进行推理阶段,使用更新后的对比学习模型参数同时通过一个分类器使用二元分类目标函数得到节点的预测分数,通过多轮计算取平均值得到最后异常得分。
在对比学习方法经过良好的训练后,通过分类器得到一个视角的节点表示和另一个视角的子图表示之间的一致性。在理想条件下,对于一个正常节点,其正对s(+)的预测得分应接近1,而负对s(-)应接近0。对于一个异常节点,方法不能很好地区分其匹配模式,其正负对的预测得分较差(接近0.5)。
Figure BDA0003949898160000101
式(8)中,f()是异常评分映射函数,
Figure BDA0003949898160000102
是视角1负实例对的预测分数,
Figure BDA0003949898160000103
是视角1正实例对的预测分数,
Figure BDA0003949898160000104
是视角2负实例对的预测分数,
Figure BDA0003949898160000105
是视角2正实例对的预测分数。
步骤五、将异常得分为0.5±0.05的目标节点视为异常节点,将异常节点标记为1,将非异常节点标记为0。
本实施例中,计算256轮异常得分取平均值得到节点的异常得分,如果分数接近0.5,那么这个节点将视为异常。将MV-CoLA方法与四种属性网络异常检测方法(ANOMALOUS,DOMINANT,DGI,CoLA)进行了比较。AUC值:ROC曲线是根据地面真实异常标签和异常检测结果,真阳性率(异常识别为异常)与假阳性率(正常节点识别为异常)的图。AUC值为ROC曲线下的面积,表示随机选择的异常节点排名高于正常节点的概率。AUC接近于1,表示该方法具有较高的性能。通过计算ROC曲线下面积,不同对比方法在6个数据集的AUC值如表2所示,在所有6个数据集上,本方法都取得了最好的异常检测性能。
表2
方法 Cora Citeseer BlogCatalog Flickr ACM Pubmed
ANOMALOUS 0.5770 0.6307 0.7237 0.7434 0.7038 0.7316
DOMINANT 0.8155 0.8251 0.7468 0.7442 0.7601 0.8081
DGI 0.7532 0.8293 0.5827 0.6237 0.6240 0.6962
CoLA 0.9043 0.8965 0.7854 0.7620 0.8237 0.9512
MV-CoLA 0.9162 0.9294 0.8035 0.7813 0.8502 0.9620
将本发明应用到真实场景中检测异常,对节点的异常分数进行排名,选取前节点进行分析,找到这些节点对应的原自科数据集对应的作者名称和所在机构,探究自科项目数据蕴含规律。
将MV-CoLA应用在百万大规模网络NNSF数据集-国家自然科学基金(NationalNatural Science Foundation)数据集收录2000年至2021年共2052家研究机构789,669名学者的论文和对应的基金项目信息,共计763,311篇。研究领域按照国家学科分类,涵盖化学、生物、建筑、农业、计算机等各个领域。该数据集详情见表3。
表3
数据集 节点 属性 异常
NNSF 1,521,995 7,555,319 1,405 2,0785
图4展示具有6000个节点的局部论文合作网络,图中灰色圆点是值筛选出的异常节点。网状结构为论文作者合作网络。从图中可以发现,论文作者合作网络具有小世界属性,任职于同一研究机构的研究人员之间形成较小的社团网络,人员在社团内部练习紧密,社团外部学术交流相对较少。图5-1和图5-2展示排名前1000的异常节点对应所属机构分布,统计分析发现,985高校研究人员占比最多,其中,北京大学,清华大学,中山大学和中科院研究机构参与自科项目的人员占比很高。其他非985普通高校占比20%。东南大学,大连理工大学等985高校参与自科项目的人员占比较低。
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。

Claims (6)

1.一种多视角对比自监督属性网络异常点检测方法,其特征在,包括以下步骤:
步骤一、对属性网络进行异常注入,包括,结构异常注入和属性异常注入;
步骤二、进行多视角采样得到多视角对比实例对,包括:
2-1)对异常注入之后的属性网络进行目标节点的选择,随机的遍历该属性网络中的每个节点作为目标节点;
2-2)通过一个采样器,分别基于结构重要性和属相相似度对同一个目标节点进行子采样得到与该目标节点对应的局部子图1和局部子图2,基于结构重要性记为视角1,基于属相相似度记为视角2;
在得到局部子图1的过程中,通过引入的广度优先参数p和深度优先参数q用于控制游走,p>1,q<1,
在得到局部子图2的过程中,通过计算该目标节点的属性相似度控制游走;
2-3)对步骤2-2)得到两个局部子图进行匿名化,将目标节点的属性向量设为零向量;
2-4)将匿名化的目标节点与局部子图1合并成一组实例对,将匿名化的目标节点与局部子图2合并成另一组实例对;将上述两组实例对的正样例对和负样例对分别保存到相应的两个样本池中;
步骤三、设计并训练多视角图神经网络对比学习模型,包括:
3-1)设计多视角图神经网络对比学习模型,该多视角图神经网络对比学习模型包括多视角图神经网络模块、读出模块和鉴别器模块;
所述多视角图神经网络模块通过两个图卷积神经网络分别得到两个视角的子图表示和目标节点表示;
所述读出模块将子图表示变为子图向量表示,使用平均池函数作为读出函数;
所述鉴别器模块使用双线性评分函数对比实例对中的节点向量表示和子图向量表示;
3-2)初始化所述的多视角图神经网络对比学习模型的参数(W(0),W(L),W(d)),W为判别器权值矩阵;利用二元分类目标函数对该对比学习模型进行训练,得到用于训练的节点的预测分数,并利用该预测分数和二元分类目标函数反向传播更新对比学习模型参数;
步骤四、使用训练好的对比学习模型进行推理阶段,使用更新后的对比学习模型参数同时使用二元分类目标函数得到节点的预测分数,通过多轮计算取平均值得到最后异常得分;
步骤五、将异常得分为0.5±0.05的目标节点视为异常节点,将异常节点标记为1,将非异常节点标记为0。
2.根据权利要求1所述的多视角对比自监督属性网络异常点检测方法,其特征在于,步骤2-4)中:所述两组实例对表示如下:
Figure FDA0003949898150000021
Figure FDA0003949898150000022
式(1)中,
Figure FDA0003949898150000023
是视角1对应的实例对,
Figure FDA0003949898150000024
是视角2对应的实例对,
Figure FDA0003949898150000025
为视角1目标节点,
Figure FDA0003949898150000026
为视角2目标节点,
Figure FDA0003949898150000027
为局部子图2,
Figure FDA0003949898150000028
为局部子图1;
Figure FDA0003949898150000029
是视角1实例对的标签,其中,
Figure FDA00039498981500000210
表示
Figure FDA00039498981500000211
是负实例对,
Figure FDA00039498981500000212
表示
Figure FDA00039498981500000213
是正实例对;
Figure FDA00039498981500000214
是视角2实例对的标签,其中,
Figure FDA00039498981500000215
表示
Figure FDA00039498981500000216
是负实例对,
Figure FDA00039498981500000217
表示
Figure FDA00039498981500000218
是正实例对。
3.根据权利要求1所述的多视角对比自监督属性网络异常点检测方法,其特征在于,步骤3-1)中:
式(2)示出了所述的子图表示:
Figure FDA00039498981500000219
式(2)中,
Figure FDA00039498981500000220
为隐藏层表示矩阵,
Figure FDA00039498981500000221
为隐藏层权值矩阵,
Figure FDA00039498981500000222
是子图邻接矩阵,φ是激活函数,
Figure FDA00039498981500000223
是子图的度矩阵;
式(3)示出了所述的目标节点表示:
Figure FDA00039498981500000224
式(3)中,
Figure FDA00039498981500000225
分别为由层(l-1)和第层(l)学习的目标节点的隐藏表示行向量,将输入
Figure FDA00039498981500000226
定义为目标节点的属性行向量,并将输出标记为目标节点向量表示
Figure FDA00039498981500000227
所述的读出函数如式(4)所示:
Figure FDA00039498981500000228
式(4)中,
Figure FDA00039498981500000229
为子图表示向量,(Ei)子图表示矩阵,(Ei)k是(Ei)的第k行,Readout表示读出函数。
4.根据权利要求3所述的多视角对比自监督属性网络异常点检测方法,其特征在于,步骤3-2)中,通过式(5)和式(6)计算用于训练的节点的预测分数:
Figure FDA00039498981500000230
Figure FDA00039498981500000231
式(5)和式(6)中,
Figure FDA00039498981500000232
表示视角1目标节点的预测分数,Discriminator是双线性评分函数,
Figure FDA0003949898150000031
表示视角1目标节点向量表示,
Figure FDA0003949898150000032
表示视角2子图向量表示,
Figure FDA0003949898150000033
为视角1判别器权值矩阵,σ是S形函数;
Figure FDA0003949898150000034
表示视角2目标节点的预测分数,
Figure FDA0003949898150000035
表示视角2目标节点向量表示,
Figure FDA0003949898150000036
表示视角1子图表示向量,
Figure FDA0003949898150000037
为视角2判别器权值矩阵。
5.根据权利要求1所述的多视角对比自监督属性网络异常点检测方法,其特征在于,步骤三和步骤四中,
所述的二元分类目标函数如下:
Figure FDA0003949898150000038
式(7)中,CLM()是多视角图神经网络对比学习模型。
6.根据权利要求1所述的多视角对比自监督属性网络异常点检测方法,其特征在于,步骤四中,所述的异常得分计算公式如下:
Figure FDA0003949898150000039
式(8)中,f()是异常评分映射函数,
Figure FDA00039498981500000310
是视角1负实例对的预测分数,
Figure FDA00039498981500000311
是视角1正实例对的预测分数,
Figure FDA00039498981500000312
是视角2负实例对的预测分数,
Figure FDA00039498981500000313
是视角2正实例对的预测分数。
CN202211445037.6A 2022-11-18 2022-11-18 多视角对比自监督属性网络异常点检测方法 Pending CN116128024A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211445037.6A CN116128024A (zh) 2022-11-18 2022-11-18 多视角对比自监督属性网络异常点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211445037.6A CN116128024A (zh) 2022-11-18 2022-11-18 多视角对比自监督属性网络异常点检测方法

Publications (1)

Publication Number Publication Date
CN116128024A true CN116128024A (zh) 2023-05-16

Family

ID=86298073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211445037.6A Pending CN116128024A (zh) 2022-11-18 2022-11-18 多视角对比自监督属性网络异常点检测方法

Country Status (1)

Country Link
CN (1) CN116128024A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116913390A (zh) * 2023-07-12 2023-10-20 齐鲁工业大学(山东省科学院) 一种基于多视角图注意力网络的基因调控网络预测方法
CN117009902A (zh) * 2023-08-02 2023-11-07 网络通信与安全紫金山实验室 一种数据检测方法、装置、设备及存储介质
CN117151160A (zh) * 2023-08-03 2023-12-01 新疆大学 一种基于多频重构的图异常检测方法和模型
CN117201122A (zh) * 2023-09-11 2023-12-08 大连理工大学 基于视图级图对比学习的无监督属性网络异常检测方法及系统
CN117828513A (zh) * 2024-03-04 2024-04-05 北京邮电大学 一种论文主题无关引用检查方法及装置
CN118074958A (zh) * 2024-01-18 2024-05-24 中国人民解放军战略支援部队信息工程大学 基于属性增强采样的网络节点全粒度异常检测方法及系统
CN118573418A (zh) * 2024-05-16 2024-08-30 中国人民解放军战略支援部队信息工程大学 基于迭代过滤的属性网络异常节点检测方法及系统
CN119337377A (zh) * 2024-10-14 2025-01-21 浙江大学 一种超大规模工业软件供应链的分阶段异常检测方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116913390A (zh) * 2023-07-12 2023-10-20 齐鲁工业大学(山东省科学院) 一种基于多视角图注意力网络的基因调控网络预测方法
CN117009902A (zh) * 2023-08-02 2023-11-07 网络通信与安全紫金山实验室 一种数据检测方法、装置、设备及存储介质
CN117151160A (zh) * 2023-08-03 2023-12-01 新疆大学 一种基于多频重构的图异常检测方法和模型
CN117201122B (zh) * 2023-09-11 2024-06-14 大连理工大学 基于视图级图对比学习的无监督属性网络异常检测方法及系统
CN117201122A (zh) * 2023-09-11 2023-12-08 大连理工大学 基于视图级图对比学习的无监督属性网络异常检测方法及系统
CN118074958B (zh) * 2024-01-18 2026-02-03 中国人民解放军网络空间部队信息工程大学 基于属性增强采样的网络节点全粒度异常检测方法及系统
CN118074958A (zh) * 2024-01-18 2024-05-24 中国人民解放军战略支援部队信息工程大学 基于属性增强采样的网络节点全粒度异常检测方法及系统
CN117828513B (zh) * 2024-03-04 2024-06-04 北京邮电大学 一种论文主题无关引用检查方法及装置
CN117828513A (zh) * 2024-03-04 2024-04-05 北京邮电大学 一种论文主题无关引用检查方法及装置
CN118573418A (zh) * 2024-05-16 2024-08-30 中国人民解放军战略支援部队信息工程大学 基于迭代过滤的属性网络异常节点检测方法及系统
CN118573418B (zh) * 2024-05-16 2026-02-03 中国人民解放军网络空间部队信息工程大学 基于迭代过滤的属性网络异常节点检测方法及系统
CN119337377A (zh) * 2024-10-14 2025-01-21 浙江大学 一种超大规模工业软件供应链的分阶段异常检测方法
CN119337377B (zh) * 2024-10-14 2025-10-31 浙江大学 一种超大规模工业软件供应链的分阶段异常检测方法

Similar Documents

Publication Publication Date Title
Liu et al. Simple contrastive graph clustering
Fu et al. Learning semantic relationship among instances for image-text matching
Zhu et al. A survey on graph structure learning: Progress and opportunities
CN112966127B (zh) 一种基于多层语义对齐的跨模态检索方法
CN116128024A (zh) 多视角对比自监督属性网络异常点检测方法
Pan et al. Low-rank tensor regularized graph fuzzy learning for multi-view data processing
Li et al. Network representation learning: a systematic literature review
Yang et al. Integrating fuzzy clustering and graph convolution network to accurately identify clusters from attributed graph
Zhang et al. Hierarchical graph pooling with structure learning
Zhou et al. M-evolve: structural-mapping-based data augmentation for graph classification
Zhang et al. Enhanced semantic similarity learning framework for image-text matching
Wang et al. Integrated heterogeneous graph attention network for incomplete multi-modal clustering
Jin et al. Deepwalk-aware graph convolutional networks
Zhang et al. Multiview graph restricted Boltzmann machines
Xue et al. Architecture knowledge distillation for evolutionary generative adversarial network
Sun et al. Applying hybrid graph neural networks to strengthen credit risk analysis
Wang et al. A hybrid CNN based on global reasoning for hyperspectral image classification
Tong et al. Representation learning using attention network and CNN for heterogeneous networks
Wang et al. Generative partial multi-view clustering
Fei et al. Deep multi-view contrastive clustering via graph structure awareness
Zulfiqar et al. Synthetic image generation using deep learning: A systematic literature review
Yang et al. Graph contrastive learning for clustering of multi-layer networks
Lin et al. Echoea: Echo information between entities and relations for entity alignment
Li et al. Efficient community detection in heterogeneous social networks
Gao et al. CommGNAS: unsupervised graph neural architecture search for community detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination