跨语言监督改善大型语言模型预训练

May, 2023

Cross-Lingual Supervision improves Large Language Models Pre-training

Andrea Schioppa, Xavier Garcia, Orhan Firat

TL;DR本研究介绍了一种在预训练大型语言模型时将自监督语言建模目标和受监督机器翻译目标混合的策略，并证明了该策略产生了具有更好上下文学习能力的模型。同时，为了解决混合比例的问题，本研究提出了一种简单而有效的策略。

Abstract

The recent rapid progress in pre-training large language models has relied on using self-supervised language modeling objectives like next