Mar, 2024

重新思考 LLM 语言适应:以中文 Mixtral 为案例研究

TL;DR该研究通过基于稀疏专家混合(SMoE)语言模型的 Mixtral 为基础,提出了 Chinese-Mixtral 和 Chinese-Mixtral-Instruct,通过进一步的预训练和指导微调改进了中文语言能力,并证明了其在中文理解和生成性能方面的成功,同时保留了原有的英语能力。此外,研究还讨论了在大型语言模型上进行语言适应时的一些关键问题,包括扩展语言特定词汇的必要性和初始化模型的选择(基础模型还是指导模型),并提供了实证结果和分析。研究还通过可视化每个专家来检查它们在下游任务中的重要性。研究资源通过 https://github.com/ymcui/Chinese-Mixtral 公开提供。