ACLOct, 2021

稀疏蒸馏:使用更大的学生模型加速文本分类

TL;DR将最先进的 Transformer 模型转化为轻量级的 Student 模型是减少推理时间中计算成本的一种有效方法。本文进一步将 Teacher 模型提炼出更大、稀疏的 Student 模型,并在单句文本分类任务中表明,这些 Student 模型平均保留了 97%的 RoBERTa-Large Teacher 性能,同时在 GPU 和 CPU 上推理时间获得高达 600 倍的加速,同时对于句子对分类任务和域泛化设置也具有帮助。