1 原文作者
Nan Xu(Institute of Automation, Chinese Academy of Sciences)
2 论文来源
Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics(2020)
3 论文地址
https://aclanthology.org/2020.acl-main.349/
4 论文简介
(1)研究背景:自动讽刺检测作为从隐式表达中分析交际中人们真实情感和意图的重要线索,在各种需要了解人们情感或观点的应用中发挥着重要作用。随着社交媒体的快速发展和多元化趋势,表达丰富用户情感的多模态讽刺推文被广泛发布在各种社交平台上。然而现有的多模态讽刺检测任务主要关注多模态数据的融合,没有捕获到不同模态的不协调的情况。
(2)研究内容:多模态推文的自动讽刺检测。
(3)研究结论:开展了基于模态间差异和语义关联的多模态讽刺检测研究,构建了D&R Net,并且取得了很好的效果。
5 解决问题
(1)试图解决的问题:捕捉不同模态之间不协调的情况,保证模态之间的不协调是在相关的背景下捕获的。
(2)在关于多模态讽刺检测的研究工作中,主要存在三点不足:
- 过去的工作主要关注多模态数据的融合。
- 模型没有能力捕获模态之间的对比信息的能力。
- 模型没有办法保证模态之间的对比信息是在相关的背景下捕获的。
6 本文贡献
(1)提出了解决多模态讽刺检测的新的思路。
(2)提出了能够捕获模态之间的不协调和语义联系的模型。
(3)与state-of-the-art方法进行了比较,证明了模型的有效性。
7 论文方法
详细描述本文提出的技术路线(包括但不限于方法、算法、模型等)。
- 新的特征:在预处理阶段捕获图片和文本的特征构建出了ANP对,一个ANP是词和概率的组合
- D-Net:使用Image、Shared、Text三层过滤掉模态之间的共性,留下模态之间的差异信息。
- R-Net:使用R-Net去捕获图像和文本在语义方面的联系。
8 实验结果
详细描述本文实验及相关结论。
- 实验场景
- 数据集:来自于Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model。
实验结果1

结论:
- MLP + CNN模型仅通过直接连接用于分类的多模峰特征来获取多模态讽刺检测作为一般多模式分类任务。因此,它得到了最糟糕的表现
- Hierarchical FM通过结合提供视觉语义信息的附加属性生成更好的特征表示来更好地执行MLP + CNN
- 上述多模态模型更注重多模态特征的融合。相比之下,我们的D&R Net通过在相关上下文中建模跨模态对比,抓住了多模态讽刺的本质,并获得了最佳表现
实验结果2

结论:
- 证明了模型各个部分都能够提升模型的表现。
实验结果3

结论:使用可视化表明模型确实可以捕获到相关的信息。
9 本文不足
(1)本文不足:
- 消融实验中虽然证明了各个模块都有作用,但是没有直接指出D&R Net是否真的具备文章所宣称的捕捉模态间差异和语义上的共性的能力。
- 部分内容写的过于简略,例如ANP是如何构造的,这给后续研究带来了极大困难。
(2)可改进方面:
- 考虑在一个实验中结合消融实验和可视化的方式,证明D&R Net真的能够捕获语义上的共性和模态及按的差异。
34