Apr, 2023
UniMax: 大规模多语言预训练中更公平、更有效的语言采样
UniMax: Fairer and more Effective Language Sampling for Large-Scale Multilingual Pretraining
Hyung Won Chung, Noah Constant, Xavier Garcia, Adam Roberts, Yi Tay...
TL;DR本文提出了一种新的采样方法 UniMax,可在平衡语言之间的差异并减轻尾部语言的过拟合的同时,提供更加均匀的头部语言覆盖,并在一系列多语言评估基准测试中证明了 UniMax 的优越性和其随着模型规模的增加而持续的优点。