KDDJun, 2022

Alexa 教师模型:自然语言理解系统的预训练和蒸馏多十亿参数编码器

TL;DR本文介绍了一个在虚拟助手 NLU 组件中进行的从预训练到蒸馏的实验,使用了介于 700M 到 9.3B 之间的参数数量不同的编码器,并从中收缩了介于 17M-170M 的较小模型,发现在预训练部分使用领域内数据可以提高模型的性能。评估结果表明,最终训练的模型性能比 DistillBERT 和 XLM-R 要好。