Jan, 2023

神经语言模型的一致性蒸馏架构

TL;DR本研究探讨了一种 Knowledge Distillation 的新方法,即从神经网络和词汇知识库中提取语言信息,以提供大规模模型的高效替代方案,并提出了两种基于多个 teacher networks 预测权重的技术以及一种用于词义消歧的方法,并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务 (NLU) 的性能,同时在 Plagiarism Detection 方面也有了更好的表现。