A Text Classification Framework for Simple and Effective Early Depression Detection over Social Media Streams论文阅读笔记

1 原文作者

Sergio G. Burdisso (Universidad Nacional de San Luis)

Marcelo Errecalde (Universidad Nacional de San Luis)

Manuel Montes-y-Gómez (Instituto Nacional de Astrofísica, Óptica y Electrónica)

2 论文来源

Expert Systems With Applications, 2019

3 论文地址

https://www.sciencedirect.com/science/article/pii/S0957417419303525

4 论文简介

面向在线社交网络的早期威胁检测问题（Early Risk Detection, ERD）包括早期抑郁症检测、早期谣言检测、性捕食者识别等。由于这些任务会参与到人们的日常决策中并修正他们的决定，这类系统需要具备增量学习能力（Incremental Learning）以及自主决定多少量的数据足以分类的能力。然后，目前主流的机器学习方法具有黑盒和不能支持增量学习的两大缺陷，本文提出一种能解决上述ERD问题的有监督文本分类通用框架——SS3。在CLEF’s eRisk2017的早期抑郁症检测数据集上的实验证明了本文提出的框架能达到该任务的SOTA结果，并且具有优良的计算性能和可解释性。

5 解决问题

现有的工作在解决ERD问题时存在以下缺陷：

模型无法自主决策何时输出分类结果
模型的黑盒性质隐藏了输出以及何时输出分类结果的原因
模型无法增量式的构建学习文本特征（例如SVM每次分类都需重新构建文档词矩阵）

因此，本文设计一个全新的文本分类器，能够同时满足：增量分类、早期分类和高可解释性三个要求。

6 本文贡献

提出了一个能够同时支持增量分类、早期分类和可解释的通用文本分类框架SS3，并在CLEF eRisk2017早期抑郁症检测数据集上验证了这三个特性。

7 论文方法

如下图，对每个文档，按照层次一级级切分至单个词（比如文档切分成段落、段落切分成句子、句子切分成单个词）。对于每个词，用本文提出的算法提取其向量。然后对每层得到的向量按照某个操作逐层聚合成一个文档表示向量。最后将这个文档表示向量放入分类器分类。

其中，gv为global value，Ci为类别，w表示词，gv(w)可描述为对于词w计算它在每个类别Ci中的global value。在本文，类别C为抑郁或者非抑郁。

gv：global value的计算参考了tf-idf的思想，计算公式如下

其中lv表示w在c中的局部值算子（local value of w in category c）。sg表示w在c中的重要性算子（significance of w in category c），sn表示w在c中的裁剪度算子（sanction of w in category c）。其中为这三个算子的超参。这三个算子的计算公式如下：

lv为w在类别c的文档集中的词频除以c中最高的词频（normalized value of term frequency of w in c）；

sg：如果w在中的lv值和它在其他类c中的lv值都很接近，则w在类中的sg值就尽可能接近0，如果w在中的lv值明显高于在其他类c中的lv值，则w在类中的sg值就尽可能接近1；

sn：如果w只在一个类c中sg值很大，那么w的sn值就尽可能接近1，如果w在多个类c中sg值都很大，那么w的sn值就尽可能接近0。

8 实验结果

模型的训练的损失和模型评估指标是有Losada and Crestani在2016年提出的Early Risk Detection Error（ERDE）。

首先做了chunk-by-chunk增量式分类实验。将一个用户按时间序排列的推文按照固定批大小切分后依次输入模型，然后比较评估模型的ERD能力，发现使用策略一进行早期分类的模型SS3在中取得了最好的结果，而使用策略二进行早期分类的模型在中取得了最好的结果。而不管使用何种策略，本文提出的模型在和上的评估结果均优于eRisk2017中提出的所有模型。