May, 2024

通过持续预训练和字典学习分析改进使用翻译数据训练的语言模型

TL;DR利用机器翻译从英语训练 LLMs 在低资源语言中通常会带来翻译的挑战,然而我们研究了机器翻译和合成数据在训练语言模型中的作用,并通过案例研究展示了改进的效果。