重新思考 LLM 语言适应：以中文 Mixtral 为案例研究

Mar, 2024

重新思考 LLM 语言适应：以中文 Mixtral 为案例研究

Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral

Yiming Cui, Xin Yao

TL;DR该研究通过基于稀疏专家混合（SMoE）语言模型的 Mixtral 为基础，提出了 Chinese-Mixtral 和 Chinese-Mixtral-Instruct，通过进一步的预训练和指导微调改进了中文语言能力，并证明了其在中文理解和生成性能方面的成功，同时保留了原有的英语能力。此外，研究还讨论了在大型语言模型上进行语言适应时的一些关键问题，包括扩展语言特定词汇的必要性和初始化模型的选择（基础模型还是指导模型），并提供了实证结果和分析。研究还通过可视化每个专家来检查它们在下游任务中的重要性。研究资源通过 https://github.com/ymcui/Chinese-Mixtral 公开提供。

Abstract

mixtral, a representative sparse mixture of experts (SMoE) language model, has received significant attention due to its unique model design and superior performance. Based on →

mixtral sparse mixture of experts chinese-mixtral chinese language abilities language adaptation

发现论文，激发创造

专家混合模型

引入了 Mixtral 8x7B，一种稀疏的专家混合（SMoE）语言模型，采用了与 Mistral 7B 相同的架构，每个层由 8 个前馈块（即专家）组成，并通过路由网络选择两个专家处理当前状态和组合它们的输出，最终得到使用 13B 活跃参数的 47B 参数模型，在数学、代码生成和多语言基准测试中表现优秀，并提供了针对指令的精调模型 Mixtral 8x7B - Instruct，在人类基准测试中超过了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 和 Llama 2 70B - chat model。

Jan, 2024

通过指令调整，为 Mistral-8x7B 稀疏 Mixture-of-Experts 激活中文聊天能力的 Aurora

通过对三个中文指令数据集进行系统研究、预处理和整合，本文成功构建了名为 'Aurora' 的 Mixtral-8x7B 稀疏专家组合模型，并通过这些数据集的指令微调，验证了 Aurora 模型在中文对话能力上的有效性，这一工作在稀疏专家组合模型的指令微调方面具有开创性意义，对该模型结构的能力提升具有显著突破。

Dec, 2023

中文细粒度 LLM：预训练中心化大型语言模型

通过引入 CT-LLM，这项研究介绍了一个 2B 规模的大型语言模型（LLM），以优先考虑中文语言的发展。这项研究挑战了在英文语料库上培训 LLMs 并将其适应其他语言的常规模式，为 LLM 培训方法学的拓宽开创了新的可能性。

Apr, 2024

指导调优大型语言模型的实证研究

通过深入实证研究指导调优中文语言模型，本文提供了宝贵的研究结果，有助于定制能更好地应对中文指令的大型语言模型。

Oct, 2023

SambaLingo: 教授大型语言模型新语言

我们详细调查了将 LLMs 适应到新语言的过程，包括词汇扩展、直接优化偏好以及低资源语言中的数据匮乏问题，我们的实验覆盖了 9 种语言和 2 个参数规模，并与先前的基准模型进行比较，我们的模型表现优于所有先前已发表的基准模型。

Apr, 2024

探究多语言预训练语言模型的迁移学习 —— 以中文自然语言推理为例

研究多语言 transformers 在英文和中文自然语言推断方面的跨语言转移能力，并基于 17 个中文挑战任务对其性能进行测试。研究发现，跨语言模型在训练时使用英语和高质量的单语 NLI 数据（OCNLI）通常表现最好，而自动翻译资源则会影响其性能。

Jun, 2021

台湾 LLM：用文化对齐的语言模型填补语言差距

台灣 LLM 是第一個專門為繁體中文設計的大型語言模型，能夠理解並產生傳統中文文本，並在文化語境上與用戶群體達到共鳴。

Nov, 2023

跨语言词汇适应的实证研究：高效生成式 LLM 推理

对五种生成式大型语言模型进行了实证研究，探讨了跨语言词汇适应方法对提高模型推理效率的有效性，发现跨语言词汇适应可大幅提升模型推理速度高达 271.5%，同时适应更平衡的多语种数据可以使下游性能接近原始模型。

Feb, 2024

调查多语言指令调整：多语模型是否需要多语言指令？

通过对多种印欧语言中的大规模语言模型进行多语言指令调整数据集上的广泛研究，我们发现使用平行指令调整数据集相比单语数据集能提高跨语言指令遵循能力，还发现大规模指令调整数据集对于多语言 7B 参数模型至关重要，并进行人工注释研究以理解多语言聊天场景中基于人类和 GPT-4 的评价之间的对齐情况。

Feb, 2024

LlamaTurk：为低资源语言适应开源生成型大语言模型

通过对英语为主的生成大语言模型进行调整，以适应资源匮乏的语言，并评估了不同的策略，包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明，持续训练改进了语言理解能力，任务特定微调一般提高了下游任务的性能，但扩展词汇未带来实质性的益处。此外，在适应时，较大的模型通过少样本微调可以提高任务性能，而多语言模型在适应时表现不如单语言模型。

May, 2024