GANs for Semi-Supervised Opinion Spam Detection论文阅读笔记 – 四川大学网络空间安全协会

GANs for Semi-Supervised Opinion Spam Detection论文阅读笔记

1 为什么要研究虚假评论：

虚假评论危害极大
虚假评论会影响消费者的消费决策，从而影响商家的经济收益
虚假评论普遍存在于电子商务、社交媒体、旅游网站、电影评论网站等领域

2 研究现状：

1、数据集获取困难

人工难以准确标注虚假评论，得到真实的标签
尽管评论很多，但现有的虚假评论数据集非常的少

2、现有研究方法的局限性（半监督 / GANs）

使用半监督方法来进行虚假评论检测的研究十分有限
大部分研究都使用预定义的特征集来训练分类器
很少有基于GANs的方法用于文本生成
大多基于GANs的方法受文本长度限制且需要大量标注数据

3 本文贡献：

核心：提出了一种半监督的基于GAN的虚假评论分类方法——spamGAN

第一个探索使用GAN来检测虚假评论的可能性
spamGAN凭借半监督的方式处理标记和未标记的数据，以此改进了基于GAN的SOTA文本分类模型
大多数的研究使用手工选取的特征集来训练分类器，而spamGAN使用从神经网络中学到的特征
实验表明，当使用有限的标注数据时，spamGAN在虚假评论分类方面优于现有的SOTA方法
spamGAN可以生成与训练集非常相似的评论，这可以在GT有限的情况下用于人造数据的生成

4 整体框架：

1、生成器

本质：一个以门控循环单元为基本组成的单向多层循环神经网络(RNN)
功能：生成与训练集高度相似的伪造评论

2、辨别器

本质：一个具有稠密输出层的单向循环神经网络(RNN)
功能：学会区分真正的评论与伪造的评论

3、分类器

本质：一个具有稠密输出层的单向循环神经网络(RNN)
功能：学会区分虚假评论与真实评论，即进行虚假评论检测

5 算法与解析：

6 数据集：

1、标注数据集

共计1596条评论数据的平衡数据集
来自Ott论文的TripAdvisor数据集（800条真实评论+800条虚假评论）

2、未标注数据集

共计32,297条评论数据
来自TripAdvisor平台

7 实验：

1、模型对比

柱状图以spamGAN-50作为spamGAN的代表，主要为了说明在标注数据较少时，本文所提出的spamGAN方法明显优于基线模型

2、标注数据比例的影响

结果说明标注数据占比越高（未标注数据占比越低），spamGAN架构的表现越好

8 个人感想：

1、本文工作的创新

领域迁移：将生成对抗网络GANs应用到虚假评论检测领域
架构设计：提出了一个基于GANs的半监督学习模型——spamGAN

2、本文工作的不足

评论文本长度最大值限定为128，将造成许多评论数据的丢失
数据集来自2011年的一篇论文，评论发布时间较早且标注数据较少
虚假评论检测不应该仅局限于文本，还应注意其他数据信息（如：评级、照片等）
部分贡献未能用具体的实验数据进行证明，是GANs方法所带来的的必然结果

3、本文内容的呈现

数学化表达：将本文工作所涉及的几乎所有变量、方法都用规范的数学公式表达出来
详细的分析：在页面有限的情况下，对研究方法与实验结果进行了详细的描述与分析

68