ACLSep, 2020

权重蒸馏:神经网络参数知识的传递

TL;DR本文提出了一种称为 “Weight Distillation” 的方法,通过参数生成器传递大型神经网络参数中的知识,来实现模型加速和压缩,在三个机器翻译任务中取得了 “竞争性” 的性能表现,以及相比于知识蒸馏高出 0.51-1.82 BLEU 分数的性能。