Segment, Mask, and Predict: Augmenting Chinese Word Segmentation with Self-Supervision论文阅读笔记

1 论文来源

EMNLP (2021)（CCF-B类会议）

2 论文作者

Mieradilijiang Maimaiti, Yang Liu , Yuanhang Zheng, Gang Chen ,Kaiyu Huang , Ji Zhang7, Huanbo Luan, Maosong Sun

3 论文地址

https://aclanthology.org/2021.emnlp-main.158.pdf

4 论文简介

目前最先进的(SOTA)有效的神经网络方法和基于预训练模型(PTM)的微调方法已应用于中文分词(CWS)中，取得了很好的效果。然而，以往的工作主要集中在每次迭代时使用固定语料库训练模型,生成的中间信息也很有价值却往往被忽略。此外，以往的神经方法的鲁棒性受到大规模标注数据的限制，因为在带注释的语料库中存在一些噪声。于是，作者提出了一种自监督的直接有效的CWS方法。首先，训练一个分词模型，并使用它来生成分割结果。然后，使用一个改进的掩蔽语言模型(MLM)来评估基于MLM的预测的分割结果的质量。最后，通过改进的最小风险训练来帮助训练分段者。实验结果表明，该方法在9个不同的CWS数据集上的单准则训练效果优于以往的方法。

5 解决问题

1.标注的不一致性：操作系统 & 操作/系统

2.词边界检测：犯罪案 & 走私/案

3.架构的复杂性：分词模型越来越复杂，对算力要求偏高

4.低鲁棒性：不同数据集或领域上同个模型的表现差异大

6 本文贡献

1.提出了一种自监督的CWS方法，它使用改进后的MLM的预测来辅助分词模型。

2.提出了一个改进版本的MRT（最小风险训练方法），通过增加正则化项，以提高分词模型的性能。

3.该方法在不同标准训练下优于以往的方法，并提高了模型的鲁棒性

7 论文方法

作者的方法的总体过程见算法1：首先，训练一个分词模型，并使用它来生成分割结果。然后，根据分割结果，根据一定的策略生成掩蔽句子，并用掩蔽句子训练一个MLM。之后，在训练集中掩盖了这些句子，并且使用MLM设置和预测掩蔽部分来评估分割结果的质量。最后，我们利用这些结果来帮助训练分割模型。

具体训练过程如下：输入是一个具有基于字符的标记化的句子，输出由一个BERT模型和一个CRF层按顺序生成。分割结果由四个标签B、M、E和s.b表示。B和E表示一个多字符单词的开始和结束，M表示多字符单词的中间部分，S表示单字符单词。分割模型用PTM(即BERT)初始化，并使用负对数似然(NLL)损失进行训练。

其中，D、D(t)和D(t)p分别表示原始序列、分割序列和预测标记，S（θ）和M（γ）分别代表分割模型和修改后的掩模预测模型。∆(xm，x(s)m)表示在预测掩牌时作为奖励的损失。

在这项工作中，作者使用了一个类似于BERT的修订版MLM(Devlin等人，2019年)来评估分割的质量。然而，在中文BERT的PTM训练中采用的掩蔽策略通常是把单个汉字作为一个单位。这种掩蔽策略不能反映分割信息，因此作者设计了一种新的能够反映分割信息的掩蔽策略。具体策略如下：

1.一个单词中只有一个字符或多个连续字符可以同时被遮蔽。

2.设置一个阈值mask_count。如果一个单词的长度小于或等于mask_count，则整个单词将被遮蔽。否则，随机选择连续的mask_count单词并遮蔽它们。

3.从所有可能的遮蔽中，随机选择一个等概率的遮蔽，并将其应用于输入。

由于可能的分割结果，公式1的计算成本大得难以接受。因此，需要从从Y(x)中采样S(x)的一个子集，并在S(x)上定义一个新的概率分布Q。此外，由于损失函数的下降与P的相比不够平均，这可能会降低一些良好的分割结果的概率，从而降低分割模型的性能。因此，作者增加了一个正则化项。

8 实验结果

1.实验准备

实验中使用的语料库分别来自SIGHAN05（爱默生，2005）、SIGHAN08(Jin和Chen，2008)、SIGHAN10（赵美和刘，2010）和其他一些开放数据集(Zhangetal.，2014)。语料库的统计数据如表3所示，一些超参数也在表4中给出。数据集MSRA、PKU、AS和CITYU来自SIGHAN052语料库，数据集CTB和SXU来自SIGHAN08，CNC、UDC和ZX来自其他开放数据集。语料库SIGHAN08和其他数据集也是公开的3。SIGHAN10包含不同领域的数据，我们选择“金融”、“文学”和“医学”作为跨领域实验数据集。此外，在整个实验中都采用CTB6作为CTB数据集。使用AS和CITYU的原始格式，而不是使用它们相应的简化版本。此外，使用与Huang等人相同的数据预处理。（2020年）进行整个实验。在单标准和多标准实验中，大部分结果都来源于相应的论文。对于多标准实验(Chenetal.，2017)，遵循He等人。（2018年），并通过结合所有数据集来准备训练数据。在噪声标记实验中，将输入序列转换为字符，并为输入序列中字符的每个位置随机生成4个标签(如B、M、E和S)。对所有架构使用相同的预处理数据，只构建每个语料库的10%的噪声标记数据，并使用90%的真实数据。对于修正后的掩蔽策略，通过在SIGHAN05上训练和测试MLM来探索预测器的最佳准确性。

2.实验一

评估指标：F1分数

基线：

LSTM+BEAM
LSTM+CRF
BERT
SELFATT+SOFT
BERT+LTL

实验设置：在使用单标准学习的9个标准CWS数据集的测试数据集上的SOTA性能之间的比较(f1-score，%)。“BERT”表示在训练中把BERT作为PTM。任何带下划线的结果都表示重新实现的分数。

实验结果：该方法在不同标准数据集的单标准学习条件下获得了较好的结果。在流行的数据集中使用了不同的分割标准。特别是PKU、MSRA和ZX的分割规则彼此不同(Huangetal.，2020)。因此，为了研究分割模型的质量，在CWS的9个基准数据集上将作者的方法与之前的SOTA方法进行了比较。除了SIGHAN05语料库上的基线BERT和BERT+LTL外，作者还参考了他们相应论文中报道的结果。然而，对于其他两个语料库(即SIGHAN08和其他其他)，作者重新运行了他们的论文中未报告的结果。由于GPU内存较低，重新实现了BERT版本的BERT+LTL，而不是使用roBERTa。

3.实验二

评估指标：F1分数

实验设置：使用多标准学习，比较9个标准CWS数据集的测试数据集上的SOTA性能(f1-score，%)。“BERT”表示在训练中将BERT作为PTM使用。下划线的表明，重新实现了现有的方法，以进行公平的比较。

实验结果：作者提出的方法始终优于以前的SOTA方法。虽然在大多数数据集上显著优于所有基线，但多标准学习的一些结果高度接近，有时低于单一标准训练的结果。多标准学习的有效性并不能提高作者的模型在CITYU语料库上的性能。然而，在其他数据集上，作者的模型获得了比单一标准学习更高的结果。

4.实验三

评估指标：f1分数

实验设置：在使用9个CWS数据集的单标准学习上进行噪声标记训练的强基线之间的比较。“BERT”表示在训练中使用BERT作为PTM。

实验结果：为了分析提出的方法相对于修订后的MLM的稳健性，利用噪声标记数据集，其中包含90%的真实数据和10%的随机打乱数据的噪声标记数据集。在本实验中，作者利用了对有噪声标记数据的单准则训练，而不是使用多准则训练。在相同的噪声标记数据集上运行所有模型。显然，所有的结果几乎都低于单标准训练的结果。然而，作者提出的方法仍然比有噪声标记数据集的SOTA基线获得更好的结果。作者不仅使用单标准训练和多标准训练，而且使用噪声标记数据训练，以不断获得比高度相似的以前的工作的改进。

5.实验四

为了探讨mask_count值对MLM质量的影响，作者用不同的mask_count值训练MLM。实验发现，当预测器的准确性达到了最高的分数时mask_count = 2.需要注意的是，如果是mask_count=1，则只能屏蔽一个字符。在这种情况下，屏蔽任何字符都是合法的，无论分割结果如何。因此，作者分析了mask_count大于或等于2的情况，并选择了使MLM的精度最高的mask_count数。

6.实验五

作者探讨了PTM对单准则训练的分割模型的影响。以BERT为PTM，探讨了PTM对不同分割标准的不同数据集(即MSRA、AS、CTB、CNC)上的分词模型质量的影响。直观地说，使用PTM的分割方法的性能比不使用PTM获得了明显更好的结果。

7.实验六

作者认为改进的MRT是我们自我监督分词结构的关键部分。为了选择超参数的最佳值，探索了CTB、CNC和UDC数据集上α、λ和S(x)大小的不同值。

实验结果：S(x)是对应于句子x的所有单词分割结果Y(x)的一个子集。如图6(a)所示，当S(x)=10的大小时，改进的MRT在不同的语料库上明显优于其他值，提高了分割模型的质量。如图6(b)所示，当α=0.5改进了MRT时分割模型的质量。λ是MRT的正则化项参数，如图6(c)所示，当λ=0.1时，模型F1-分数与其他值相比获得了最好的分割性能。

9 本文不足

在本工作中，作责提出了一种CWS的自监督方法。首先根据分割结果生成掩蔽序列，然后使用修正后的MLM来评估分割的质量，并通过改进的MRT来增强分割。实验结果表明，该方法在流行的和跨域CWS数据集上都优于以往的方法，并且对噪声标记数据具有更好的鲁棒性。

优点：

利用自监督学习进行中文分词
模型的鲁棒性得到提高
模型的泛化性能得到了提高

缺点：

模型的提升效果不够显著
模型对算力需求依然较高

10 数据集和代码

地址：https://github. com/miradel51/Self_Supervised_CWS