Oct, 2019

利用蒸馏非线性神经分解改进词嵌入分解以进行压缩

TL;DR本文介绍了一种基于低秩矩阵分解和知识蒸馏的输入/输出嵌入压缩方法,提出的方法简单易实现,具有更高的BLEU分数和更低的语言模型困惑度,适用于机器翻译和语言建模。