Jun, 2022
DiMS: 迭代非自回归变换器的多步精简
DiMS: Distilling Multiple Steps of Iterative Non-Autoregressive Transformers
Sajad Norouzi, Rasa Hosseinzadeh, Felipe Perez, Maksims Volkovs
TL;DR本文提出了一种叫做 Distill Multiple Steps 的简单而有效的蒸馏技术,它可以通过使用学生模型和教师模型,使得输出的质量得到提高,且能够减少到达特定翻译质量所需的步骤数。