May, 2023

跨语言监督改善大型语言模型预训练

TL;DR本研究介绍了一种在预训练大型语言模型时将自监督语言建模目标和受监督机器翻译目标混合的策略,并证明了该策略产生了具有更好上下文学习能力的模型。同时,为了解决混合比例的问题,本研究提出了一种简单而有效的策略。