专家混合模型

Jan, 2024

Mixtral of Experts

Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary...

TL;DR引入了 Mixtral 8x7B，一种稀疏的专家混合（SMoE）语言模型，采用了与 Mistral 7B 相同的架构，每个层由 8 个前馈块（即专家）组成，并通过路由网络选择两个专家处理当前状态和组合它们的输出，最终得到使用 13B 活跃参数的 47B 参数模型，在数学、代码生成和多语言基准测试中表现优秀，并提供了针对指令的精调模型 Mixtral 8x7B - Instruct，在人类基准测试中超过了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 和 Llama 2 70B - chat model。

Abstract

We introduce mixtral 8x7b, a sparse mixture of experts (SMoE) language model. Mixtral has the same architecture as Mistral 7B, with the di

mixtral 8x7b sparse mixture of experts language model context size fine-tuned model

发现论文，激发创造

重新思考 LLM 语言适应：以中文 Mixtral 为案例研究

该研究通过基于稀疏专家混合（SMoE）语言模型的 Mixtral 为基础，提出了 Chinese-Mixtral 和 Chinese-Mixtral-Instruct，通过进一步的预训练和指导微调改进了中文语言能力，并证明了其在中文理解和生成性能方面的成功，同时保留了原有的英语能力。此外，研究还讨论了在大型语言模型上进行语言适应时的一些关键问题，包括扩展语言特定词汇的必要性和初始化模型的选择（基础模型还是指导模型），并提供了实证结果和分析。研究还通过可视化每个专家来检查它们在下游任务中的重要性。研究资源通过 https://github.com/ymcui/Chinese-Mixtral 公开提供。

Mar, 2024

Mistral 7B

Mistral 7B v0.1 是一个拥有 70 亿参数的语言模型，通过使用分组查询注意力（GQA）和滑动窗口注意力（SWA）提高了推理效率，并且还提供了一个经过调整的模型 Mistral 7B -- Instruct，在人类和自动化评测中都超过了 Llama 2 13B -- Chat 模型。

Oct, 2023

通过指令调整，为 Mistral-8x7B 稀疏 Mixture-of-Experts 激活中文聊天能力的 Aurora

通过对三个中文指令数据集进行系统研究、预处理和整合，本文成功构建了名为 'Aurora' 的 Mixtral-8x7B 稀疏专家组合模型，并通过这些数据集的指令微调，验证了 Aurora 模型在中文对话能力上的有效性，这一工作在稀疏专家组合模型的指令微调方面具有开创性意义，对该模型结构的能力提升具有显著突破。

Dec, 2023

JetMoE：以 0.1M 美元达到 Llama2 性能

JetMoE-8B 是一种高性价比、透明和学术友好的基于 Sparsely-gated Mixture-of-Experts (SMoE) 架构的大型语言模型，仅需要不足 10 万美元的培训成本，拥有 8B 个参数，使用公共数据集和训练代码，能在降低推理计算约 70% 的情况下实现令人瞩目的性能表现，为开放的基础模型的发展提供了透明而鼓励合作的方式。

Apr, 2024

分支训练 MiX：将专家 LLMs 混合到一个专家混合 LLM 中

我们研究了训练大型语言模型在多个专业领域（如编码、数学推理和世界知识）中具备能力的高效方法。我们的方法名为 Branch-Train-MiX（BTX），从一个种子模型开始，在高吞吐量和减少通信成本的尴尬地并行训练专家。在专家异步训练后，BTX 将它们的前馈参数作为混合专家（MoE）层的专家团队，并平均剩余参数，接着采用 MoE 微调阶段学习标记级别的路由。BTX 推广了两种特殊情况，Branch-Train-Merge 方法不需要 MoE 微调阶段学习路由，而稀疏升级则省略了专家异步训练阶段。与替代方法相比，BTX 在准确性和效率之间取得了最佳平衡。

Mar, 2024

一位教师胜过百万句指令

我们提出了一种改进的训练方法，使用更大的模型的知识来提高大型语言模型的训练效果，同时利用领域专家模型进行领域对齐，通过这种方法，在性能上超过了具有更大参数数量的现有语言模型。

Jun, 2024

用于流式多语言 ASR 的专家混合 Conformer

提出了一种流式的、真正的多语言 Conformer 模型，其中融合了 MoE 层以提高推理效率，经在 12 种语言上评估，相对于基线获得 11.9% 的相对 WER 改进；在不使用语言信息的前提下，与使用 Ground Truth 信息的适配器模型相比，我们的 MoE 模型实现了类似的 WER 和相似数量的参数激活，并通过多语言浅层融合实现了约 3% 的相对 WER 改进。

May, 2023

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

内存高效的 NLLB-200：大规模多语言机器翻译模型的语言专家剪枝

提出了一种修剪方法，可在保持翻译质量的同时，移除多语言机器翻译中不相关的习惯用语，并检测出特定语种的专家，以便使用 Sparse Mixture-of-Experts 模型在单个 GPU 上运行。

Dec, 2022

混合专家语言模型的快速推断与卸载

通过参数卸载算法和利用 MoE LLMs 的固有属性提出一种新策略，使消费者硬件和免费 Google Colab 实例上能够运行 Mixtral-8x7B 型号的 MoE 语言模型。

Dec, 2023