ACLMay, 2021

预训练语言模型的知识继承

TL;DR介绍了一种新的预训练框架 —— 知识遗传,并研究了如何在预训练过程中使用知识蒸馏作为辅助监督来高效地学习更大的预训练语言模型,并证明了知识遗传在训练效率方面的卓越表现,同时探索了教师 PLMs 的预训练设置对知识遗传的影响和如何应用知识遗传进行领域适应和知识转移。