Oct, 2021
终身预训练:持续适应新出现的语料库的语言模型
Lifelong Pretraining: Continually Adapting Language Models to Emerging
Corpora
TL;DR本研究通过使用不同的持续学习算法对预先训练的语言模型进行不断的增量预训练,并通过评估模型对新数据的适应能力以及对早期数据所学知识的保留能力来研究生命周期语言模型预训练挑战,结果表明采用基于蒸馏的方法可以最有效地保留早期领域的下游任务性能。这些算法还可以提高知识转移能力,使模型在最新数据上实现更好的下游性能,并在由于时间而存在训练和评估之间的分布差异时,提高时态的泛化能力。