Jun, 2021

MergeDistill: 使用蒸馏方法合并预训练语言模型

TL;DR本文提出了 MergeDistill 框架,通过知识蒸馏的方式合并预先训练的多语言模型,旨在快速训练出性能与甚至优于数量级更大的模型,同时强调教师模型的选择对学生模型性能的影响。