Jun, 2016

序列级知识蒸馏

TL;DR本文介绍了在神经机器翻译中应用知识蒸馏技术,包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上,我们的学生模型在运行速度增加的同时,表现损失不大。此外,通过权重剪枝,还极大地减小了模型的参数数量。