CN107085616B

CN107085616B - Lbsn中一种基于多维属性挖掘的虚假评论可疑地点检测方法

Info

Publication number: CN107085616B
Application number: CN201710397805.8A
Authority: CN
Inventors: 曹玖新; 郭一方; 马卓
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2017-05-31
Filing date: 2017-05-31
Publication date: 2021-03-16
Anticipated expiration: 2037-05-31
Also published as: CN107085616A

Abstract

本发明公开了LBSN中一种基于多维属性挖掘的虚假评论可疑地点检测方法，其步骤为：首先对存在虚假评论活动的可疑地点进行标注；其次基于LBSN的地点评分、时空属性和地点评论的文本内容，针对地点的整体评论异常与地点间恶意竞争的关系，进行异常特征的提取；采用逻辑斯蒂回归机器学习方法进行训练学习，获得每个地点的异常程度与两个地点之间的竞争程度；然后基于地点与地点间竞争关系构建马尔科夫随机场检测模型，将地点和地点间竞争关系的异常特征与LBSN网络拓扑相融合；基于检测模型，计算任意地点为可疑地点的概率；最终标注地点是否为存在虚假评论活动的可疑地点。该检测方法大幅提高了检测虚假评论活动的可疑地点的准确率。

Description

LBSN中一种基于多维属性挖掘的虚假评论可疑地点检测方法

技术领域

本发明涉及到LBSN中一种基于多维属性挖掘的虚假评论可疑地点的检测方法。

背景技术

近年来，随着移动终端定位技术和移动互联网技术的快速发展，基于位置的社交网络即LBSN(全称为Location-Based Social Networks)平台取得了巨大的成功。LBSN通过位置特征将虚拟社交空间和现实行为空间连接起来，融合了线上关系与线下行为，用户可以依赖线上网络针对空间地点发布评论，线下依靠这些评论来探索发现新的地点，并对这些地点进行选择性访问、消费或者服务。然而，LBSN平台上海量的信息中存在各种虚假评论，其多为组织性的虚假评论活动，这类活动通过发布多条虚假评论以改变地点的口碑，从而影响用户的访问决策，为地点商家攫取不法利益，同时破坏网络环境，严重影响用户体验与网络信誉。因此，识别与检测这部分存在虚假评论活动的可疑地点具有重要的现实意义。

当前关于虚假评论活动的商家的检测技术主要是针对传统的电子商务网站，对于LBSN中存在虚假评论活动的可疑地点的检测研究较少，并且没有研究考虑地点商家之间的竞争性导致的虚假评论活动。在现实LBSN中，地点不仅能够通过本身整体的评论在时间、空间、评分、文本等维度表现出的异常检测是否存在虚假评论活动，而且通过地点之间的竞争关系能够更深入的发掘恶意竞争导致虚假评论活动的可疑地点，从而提高存在虚假评论活动的可疑地点的检测准确率。

发明内容

本发明所要解决的技术问题是：提供一种可以识别与检测存在虚假评论活动的可疑地点的LBSN中一种基于多维属性挖掘的虚假评论可疑地点检测方法。

为解决上述技术问题，本发明采用的技术方案为：LBSN中一种基于多维属性挖掘的虚假评论可疑地点检测方法，利用LBSN中地点的异常特征信息与地点间的竞争关系进行可疑地点的检测过程，包括如下步骤：

1)根据LBSN中已被过滤的评论信息，人工识别虚假评论活动，标注存在虚假评论活动的可疑地点以及无虚假评论行为的可信地点，并划分地点的训练集与测试集；同时标注存在恶意竞争活动的竞争关系地点对，与无竞争关系地点对，并划分竞争关系地点对的训练集与测试集。

2)针对存在虚假评论活动的地点进行分析，基于LBSN的地点评分、时空属性和地点评论的文本内容提取地点整体评论的异常特征，构造地点的异常特征集。

3)针对地点间的竞争性进行分析，基于LBSN的多种维度提取两地点间的恶意竞争关系的异常特征，构造地点间竞争关系的异常特征集。

4)基于逻辑斯蒂回归机器学习方法构建异常程度函数，根据步骤1)中标注的正负例对函数中特征权值参数进行学习，获得数据集中每个地点的异常程度ε_l与地点间竞争关系的异常程度ε_c。

5)基于LBSN构建马尔科夫随机场检测模型，包含节点与边，其中节点表示地点，边表示地点间竞争关系；所述节点包含两种类别：可疑地点与可信地点，设置在不同类别下节点属于各类别的先验概率，通过步骤4)中地点的异常程度获得；设置地点与地点间在不同类别下的关联程度值矩阵，，关联程度通过步骤4)中两地点间竞争异常程度获得。

6)根据步骤5)得到的马尔科夫随机场检测模型，对于节点v_i到节点v_j设置信息值

并基于该模型将信息值迭代传播，最终对每个节点v_i生成置信度

表示节点v_i属于类别σ_i的可信度，作为节点v_i属于类别σ_i的边缘概率。

7)根据步骤6)获得的节点置信度，最终对地点是否为存在虚假评论活动的可疑地点进行标注。

所述步骤1)的数据集中虚假评论活动地点标注的具体方法为：根据LBSN网络中自动过滤的评论信息，选取被过滤评论比例高的部分地点，人工标注其中的虚假评论，将虚假评论比例高于一定阈值的地点标注为存在虚假评论活动的可疑地点，随机选取部分不存在被过滤评论的地点标注为可信地点。

所述步骤2)中从不同维度提取数据集中任意地点l的整体评论异常特征具体方法包括：从评分差异维度提取地点的总体评分差异性OSD(l)，从时间维度提取地点的评论爆发性MRD(l)，从时空维度提取地点的签到周期分布差异性D(r||c)从评论文本维度提取地点的内容相似性MCS(l)。

所述步骤3)中从不同维度提取数据集中存在竞争的两地点l_m，l_n间的恶意竞争的异常特征具体方法包括：从评分差异维度提取两竞争地点共同用户的评论差异性URD(l_nm，l_n)，从时间维度提取两竞争地点共同用户的评论时间协同性ATI(l_nm，l_n)，从评论文本维度提取两竞争地点共同用户的内容相似性ACS(l_nm，l_n)。

所述步骤4)中基于逻辑斯蒂回归机器学习方法进行训练学习获得每个地点的异常程度与地点间竞争关系的异常程度的具体方法分为以下3个步骤：

a)根据地点的异常特征集构造特征向量

基于步骤1)中标注的地点的训练集，通过采用梯度下降法训练学习获得地点的异常特征向量对应的权值向量

b)根据地点间的竞争关系的异常特征集构造特征向量

基于步骤1)中标注的竞争关系地点对的训练集，通过采用最大似然估计和梯度下降法训练学习获得地点间竞争关系的异常特征向量对应的权值向量

c)根据地点的异常特征与权重计算所有地点的异常程度ε_l，根据地点间竞争关系的异常特征与权重计算所有地点间竞争关系的异常程度ε_c，计算异常程度ε_l与ε_c的具体方法为：

其中，

为根据特征集构造的特征向量，

为特征向量对应的特征权向量。

所述步骤6)中基于检测模型将信息值

迭代传播的具体方法为：

其中，M为节点的类别集合，

为节点v_i与节点v_j在各自类别σ_i，σ_j下的关联程度值，

为节点自身在类别σ_i下的先验概率值，

为节点v_i的其他邻居节点v_k传递给该节点的信息值，N(v_i)是节点v_i的所有邻居节点集合，N(v_i)\v_j是节点v_i除节点v_j外的所有邻居节点集合，Z₁是标准化常量，目的是确保

即所有类别下信息值

之和为1。。

所述步骤6)中需要计算每个节点v_i在类别σ_i下的置信度

作为节点v_i属于类别σ_i的概率，节点v_i属于类别σ_i的置信度计算的具体方法为：

其中，Z₂是标准化常量，目的是确保

即节点v_i在所有类别下下的置信度之和为1。

本发明的有益效果为：本发明根据LBSN中地点的评论在评分、时间、空间和文本维度表现出的异常特征，提取地点的异常特征，基于逻辑斯蒂回归机器学习方法对地点进行分类，有效检测存在虚假评论活动的可疑地点；引入地点间的竞争关系改进检测效果，提取地点间竞争的异常特征；融合地点自身的异常特征与地点间竞争的异常特征，共同作用于存在虚假评论活动的可疑地点的检测，提升检测性能。具体地讲，本发明具有如下优点：

1、利用LBSN中地点的评论在评分、时间、空间、文本维度表现出的异常特征，提取地点的异常特征，基于逻辑斯蒂回归机器学习方法对地点进行分类，有效检测存在虚假评论活动的可疑地点；

2、引入地点间的竞争关系改进检测效果，提取地点间竞争的异常特征，深入挖掘可能存在虚假评论活动的地点；

3、融合地点自身的异常特征与地点间竞争的异常特征，共同作用于虚假评论活动地点的检测，提升检测的准确度。

附图说明

图1为本发明的异常特征提取流程图。

图2为本发明的虚假评论活动地点检测流程图。

图3为本发明的整体系统框架图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等同变换均落于本申请所附权利要求所限定的范围。

参见图1、图2和图3所示，本发明所述的LBSN中一种基于多维属性挖掘的虚假评论可疑地点检测方法，包括如下步骤：

步骤1：根据LBSN网络中自动过滤的评论信息，选取被过滤评论比例高的部分地点，人工标注其中的虚假评论，将虚假评论比例高于一定阈值的地点标注为存在虚假评论活动的可疑地点，随机选取部分不存在被过滤评论的地点标注为可信地点。然后采用随机抽取的方法按照4∶1的比例将数据划分为两部分：S、T，其中S作为训练集，T作为测试集；

基于标注出的可疑地点，选取有共同的访问评论用户，间隔距离小于一定阈值并且地点的标签类别相似度大于一定阈值的地点对作为可能存在竞争关系的地点对候选集，基于人工标注的方式标注出候选集中存在恶意竞争导致虚假评论活动的地点对作为竞争地点对，随机选取候选集中无恶意竞争活动的地点对作为无竞争地点对。然后采取随机抽取的方法同样按照4∶1的比例将数据划分为两部分：S、T，其中S作为训练集，T作为测试集；

步骤2：针对存在虚假评论活动的地点进行分析，基于LBSN的评分、时间、空间、文本等多种维度提取数据集中任意地点l的异常特征进行量化。

1)从评分差异维度提取地点l的总体评分差异性OSD(l)：

其中，t表示地点的某一条评论i∈R_l的发布日期时刻，R_l表示地点l的评论集合，r_i(t)表示在t时刻评论i的评分，avg_t’＜tr_i(t’)表示t时刻之前地点l的平均评分，d_i表示评论r_i(t)的评分与评论时刻前地点l的平均评分avg_t’＜tr_i(t’)之间的差异，

表示地点所有评论的平均评分差异。

2)从时间维度提取地点l的评论爆发性MRD(l)：

其中，n为一天内地点l收到的评论数，avg(n)为地点l在具有评论的天数内的平均每日评论次数，max(n)为地点l最大评论次数，

表示地点的每日最大评论数的绝对偏差。

3)从时空维度提取地点l的签到周期分布差异性D(r||c)：

其中，k∈{1，2，…，7}表示一周周期内的一天，r表示地点l在一周周期内评论分布向量，c表示地点l在一周周期内签到分布向量，

为KL散度描述地点签到时间分布和评论时间分布的差异性。

4)从评论文本维度提取地点l的内容相似性MCS(l)：

其中，将地点的所有评论文本作为语料空间，cosine(r_i，r_j)为对于地点l的任意两条评论r_i，r_j基于TF-IDF的文本余弦相似性。

5)通过提取的数据集中所有地点的特征值构造地点的异常特征集

其中，

为总体评分差异性OSD(l)，

为评论爆发性MRD(l)，

为签到周期分布差异性D(r||c)，

为内容相似性MCS(l)。

步骤3：针对地点间的竞争性进行分析，基于LBSN的多种维度提取数据集中任意可能存在竞争的地点对l_m，l_n竞争的异常特征进行量化。

1)从评分差异维度提取两竞争地点l_m，l_n共同用户的评论差异性URD(l_m，l_n)：

URD(l_m，l_n)＝avg_i∈U|d_i|，d_i＝r_i(l_m)-r_i(l_n) (5)

其中，地点l_m与l_n的共同评论用户集合为U，r_i(l)表示用户i针对地点l的评分，d_i表示用户i对于两个竞争地点l_m、l_n的评分差异。

2)从时间维度提取两竞争地点l_m，l_n共同用户的评论时间协同性ATI(l_nm，l_n)：

ATI(l_m，l_n)＝avg_i∈U|T_i(l_nm)-T_i(l_n)| (6)

其中，T_i(l)表示用户i针对地点l的评论时间，|T_i(l_m)-T_i(l_n)|表示用户i对于两个竞争地点l_m、l_n的评论时间间隔。

3)从评论文本维度提取两竞争地点l_m，l_n共同用户的内容相似性ACS(l_nm，l_n)：

其中，R_U表示共同用户集合U的针对于竞争地点的评论集合，将其作为语料空间，cosine(r_i，r_j)为共同用户针对竞争地点发布的评论文本r_i，r_j之间的基于TF-IDF的余弦相似性。

4)通过提取的数据集中所有可能存在竞争的地点对的特征值构造地点间竞争的异常特征集

其中，

为评论差异性URD(l_nm，l_n)，

为时间协同性ATI(l_m，l_n)，

为内容相似性ACS(l_nm，l_n)。

步骤4：将步骤2与步骤3得到的特征向量采用逻辑斯蒂回归机器学习方法进行训练学习，获得每个地点的异常程度ε_l与两个地点之间的竞争程度ε_c。异常程度与竞争程度的计算方法相同，以下以异常程度ε_l的计算为例，主要包含以下步骤：

1)对于地点的异常特征集Ψ_L，构造该类的特征向量

其中，

表示特征集Ψ_L中的第i个特征值。

2)为每一维特征设置权重ω，对于特征向量

构造对应特征权向量

其中，权值ω_i表示特征权向量

中的第i个特征对于地点的异常程度ε_l的重要程度。

3)基于二项逻辑斯蒂回归模型构造表示地点的异常程度的程度函数：

其中，ε_l∈[0，1]，ε_l越接近于1表示地点l的异常程度越高。

4)基于构造的地点的训练集采用最大似然估计和梯度下降法对函数参数进行学习，学习得特征权向量

5)根据数据集中任意地点l的异常特征向量

与特征权向量

计算数据集中所有地点l的异常程度ε_l。

步骤5：基于LBSN构建马尔科夫随机场检测模型的具体步骤分为以下3步：

1)基于LBSN与马尔科夫随机场构建网络G(V，E)，其中，V是节点集合，E是地点-地点边的集合，为步骤1中选取的可能存在竞争关系的地点对候选集合，表示地点间的竞争关系。

2)对于节点v_m，设置

为节点v_m在不同类别σ_m下的先验概率分布，表示地点为不同类别地点的可能性。设置步骤4中获得的地点的异常程度ε_l表示节点在可疑地点类别下的先验值，1-ε_l表示节点在可信地点类别下的先验值。

3)对于地点-地点边E，设置

为节点v_m与节点v_n在各类别下的关联程度分布矩阵，表示地点的类别受到与其存在竞争的地点的类别的相关程度。若节点v_m的类别为可疑地点，设置地点间竞争的异常程度ε_c表示地点间存在恶意竞争的可能性，1-ε_c表示地点间无恶意竞争的可能性。而当节点v_m的类别为可信地点，不考虑地点间存在的恶意竞争特征，设置节点v_m与节点v_n为可疑地点和可信地点的相关程度相同，均为1/2。

步骤6：根据步骤5得到的检测模型，计算每个地点为存在虚假评论活动的可疑地点的概率，具体包含以下步骤：

1)根据步骤5得到的检测模型，设置模型中任意节点v_i到节点v_j信息值

信息值传递方法为：

其中，

为步骤5中获得的节点在类别σ_i下的先验概率值，

为节点v_i与节点v_j在各自类别σ_i，σ_j下的关联程度值，

为节点v_i的其他邻居节点v_k传递给该节点的信息值，N(v_i)是节点i的所有邻居节点集合，Z₁是标准化常量，

2)初始化所有信息值为1。

3)选取部分节点开始信息值迭代传播，在此过程中将信息值不断更新。

4)当所有的信息值连续两次更新的变化小于一定阈值时，表示所有节点的类别分布情况达到稳定状态，停止信息值传递。

5)计算每个节点v_i在类别σ_i下的置信度

作为节点v_i属于类别σ_i的概率，节点v_i的置信度计算方式为：

其中，Z₂是标准化常量，目的是确保

步骤7：根据步骤6获得的任意节点v_i在可疑地点类别σ下的置信度

基于测试集的检测结果选择合适的划分阈值δ，选取

的地点标注为存在虚假评论活动的可疑地点。

Claims

1.LBSN中一种基于多维属性挖掘的虚假评论可疑地点检测方法，其特征在于，利用LBSN中地点的异常特征与地点间的竞争关系进行虚假评论可疑地点检测过程，包括如下步骤：

1)根据LBSN中已被过滤的评论信息，人工识别虚假评论活动，标注存在虚假评论活动的可疑地点以及无虚假评论行为的可信地点，并划分训练集与测试集；

2)针对存在虚假评论活动的地点进行分析，基于LBSN的地点评分、时空属性和地点评论的文本内容提取地点整体评论的异常特征，构造地点的异常特征集；

3)针对地点间的竞争性进行分析，基于LBSN的多种维度提取两地点间的恶意竞争关系的异常特征，构造地点间竞争关系的异常特征集；

4)分别将步骤2)、步骤3)得到的特征集中的特征拼接为特征向量，采用基于逻辑斯蒂回归机器学习方法构建异常程度函数，根据步骤1)中标注的正负例对函数中特征权值参数进行学习，获得数据集中每个地点的异常程度ε_l与地点间竞争关系的异常程度ε_c；

5)基于LBSN构建马尔科夫随机场检测模型，包含节点与边，其中节点表示地点，边表示地点间竞争关系；所述节点包含两种类别：可疑地点与可信地点，设置不同类别下节点属于各类别的先验概率，通过步骤4)中得出的地点的异常程度获得；设置地点与地点间在不同类别下的关联程度值矩阵，关联程度通过步骤4)中两地点间竞争异常程度获得；