AAAIOct, 2021

通过学习排序进行语言建模

TL;DR通过使用预先训练的 GPT-2、BERT 和 Born-Again 模型来生成排名来避免标注排名,建立语言建模为排序任务的方法,并使用 $n$-gram 创建非概率性教师,证实我们可以将 $LMing$ 视为排序任务而不使用预先训练的 LM,并且在比较 KL-based KD 时通常通过统计显著性提高 perplexity。