Jan, 2023
神经语言模型的一致性蒸馏架构
A Cohesive Distillation Architecture for Neural Language Models
TL;DR本研究探讨了一种Knowledge Distillation的新方法,即从神经网络和词汇知识库中提取语言信息,以提供大规模模型的高效替代方案,并提出了两种基于多个teacher networks预测权重的技术以及一种用于词义消歧的方法,并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务(NLU)的性能,同时在Plagiarism Detection方面也有了更好的表现。