Oct, 2024

多语言语言模型的规模法则

TL;DR本研究针对多语言预训练中语言平衡的问题,提出了一种新的规模法则,重点从单一语言转向语言家族,以简化多语言规模分析。我们发现,每个语言家族的测试交叉熵损失仅由其采样比例决定,从而推导出性能与数据集大小、模型规模和采样比例之间的幂律关系,提供了一种高效的多语言语言模型训练方法。