ACLSep, 2019

来自混合词汇训练的极小 BERT 模型

TL;DR本文通过使用混合词汇训练来对齐师生嵌入,提出了一种压缩 BERT-LARGE 的知识蒸馏方法,使其成为一个具有更小词汇表和隐藏维数的无任务模型,这个模型的经验结果表明它比其他压缩 BERT 模型在语言理解基准和实际对话任务中具有更好的性价比。