Aug, 2019

有阅读素养的学生学习更好:关于预训练紧凑模型的重要性

TL;DR本文研究自然语言表示、模型压缩技术、预训练、微调和知识蒸馏等方面的互动关系,提出了一种简单而有效的预训练蒸馏算法,分析了模型大小和无标记任务数据属性对其的影响。