BriefGPT.xyz
May, 2023
跨语言监督改善大型语言模型预训练
Cross-Lingual Supervision improves Large Language Models Pre-training
HTML
PDF
Andrea Schioppa, Xavier Garcia, Orhan Firat
TL;DR
本研究介绍了一种在预训练大型语言模型时将自监督语言建模目标和受监督机器翻译目标混合的策略,并证明了该策略产生了具有更好上下文学习能力的模型。同时,为了解决混合比例的问题,本研究提出了一种简单而有效的策略。
Abstract
The recent rapid progress in
pre-training
large language models
has relied on using
self-supervised
language modeling objectives like next
→