Oct, 2019
用未标记的转移数据将BERT蒸馏为简单的神经网络
Distilling Transformers into Simple Neural Networks with Unlabeled
Transfer Data
TL;DR该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题,探讨利用领域内未标记的数据、有限的已标记数据和基于简单RNN模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明,使用软蒸馏和利用教师模型的中间表示,学生模型的性能可以进一步提高,而在低资源环境下,学生模型在保证与教师模型性能基本持平的情况下,可实现最多26倍的压缩比,针对多语言环境的扩展实验结果更是惊人。