Jul, 2024

双语基础模型的双语适应

TL;DR我们提出一种高效的方法来将单语大型语言模型调整为另一种语言,并解决了灾难性遗忘和标记器限制的挑战。我们以将Llama 2调整为阿拉伯语为重点进行了研究。我们的两阶段方法从扩展词汇表和仅训练嵌入矩阵开始,然后在双语语料库上进行全模型持续预训练。通过在阿拉伯语和英语语料库的混合中持续预训练,模型在保留英语熟练度的同时获得了阿拉伯语的能力。我们的方法在阿拉伯语和英语方面都取得了显著的改进,展示了高效的跨语言转移。我们还对嵌入初始化技术、数据混合比例和学习率进行了广泛的消融实验,并发布了详细的训练指南。