ACLJun, 2019

使用知识蒸馏的可扩展语法感知语言模型

TL;DR利用知识蒸馏技术将小型语法语言模型的知识传递到 LSTM 语言模型,从而使 LSTM 对更大的训练数据开发出更具结构感知性的表示方式。在针对语法的评估中,我们发现,尽管顺序 LSTM 比以前的报告要好得多,但我们提出的技术显著改善了这个基准值,产生了新的最佳成果。我们的发现和分析确认了结构上的偏差的重要性,甚至是在从大量数据中学习的模型中也如此。