BERT学习教学：利用元学习进行知识蒸馏

BERT Learns to Teach: Knowledge Distillation with Meta Learning

阅读笔记作者：翦逸飞

1 原文作者

斯坦福大学：

加州大学圣地亚哥分校：

2 论文来源

自然语言处理顶会（CCF-A）：

Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (ACL’2022)

3 论文地址

4 论文简介

（1）知识蒸馏的含义

（2）研究知识蒸馏的原因

（3）知识蒸馏的模式（Student-Teacher）

5 解决问题

Teacher不知道Student学习的情况：在传统的知识蒸馏中，Student被动地接受Teacher的知识，而Teacher无法察觉Student的学习能力和表现
Teacher在知识蒸馏的过程中未被优化：对于一个经典的蒸馏过程，Teacher往往作为一个固定的模型，其知识不会改变；以往的工作涉及到训练Teacher优化自身的推理性能，而未研究Teacher如何才能更好地把知识传授给Student

6 本文贡献

（1）总体贡献

提出了一个基于元学习思想来进行知识蒸馏的“通用”框架——MetaDistil

（2）思想上的创新与贡献

7 论文方法

（1）算法伪代码

验证集

（3）超参数敏感性实验

（4）计算资源局限性实验

（5）不同的压缩比实验

蒸馏BERT-base到4-layer BERT（110M → 52M）

（6）蒸馏动力学实验

（7）计算机视觉领域模型对比实验

数据集：CIFAR-100数据集

9 本文不足

知识蒸馏的意义就在于牺牲执行任务能力来实现高效与环保，而MetaDistil既没有比传统知识蒸馏方法高效，其培养的Student也没有比原始的Teacher表现更好，有一点违背知识蒸馏的初衷
压缩识别样例（Compression Identified Exemplars，CIE）问题：模型压缩方法的通病，指整体的准确性较高，但在一小部分样本上存在不成比例的高错误率

10 代码和数据集地址

165