EMNLPJan, 2020

小数据场景中高效自然语言理解的生成 - 蒸馏方法

TL;DR通过 generation-distillation 训练方法,利用大型 fine-tuned 语言模型生成无标签训练数据,通过知识蒸馏技术将这些数据的知识转移给小型网络,从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距,实现了使用更少的参数(仅为 BERT 的 300 倍)达到与 BERT 可比的性能。