百万专家混合模型

Jul, 2024

Mixture of A Million Experts

Xu Owen He

TL;DR基于稀疏检索的层设计 PEER（parameter efficient expert retrieval）充分利用来自庞大专家池（超过一百万个）的产品键技术以实现稀疏检索，超过密集前馈层和粗粒度 MoEs，从而在性能 - 计算权衡方面提供更好的性能。通过有效利用大量的专家，PEER 释放了进一步扩展 Transformer 模型的潜力，同时保持计算效率。

Abstract

The feedforward (FFW) layers in standard transformer architectures incur a linear increase in computational costs and activation memory as the hidden layer width grows. sparse mixture-of-experts (MoE) architectur

feedforward layers transformer architectures sparse mixture-of-experts fine-grained moe scaling law peer (parameter efficient expert retrieval)

发现论文，激发创造

高效变换器的基于近似的两层前馈网络

如何在不牺牲性能的情况下减少神经网络的计算和内存需求？本研究提出了 sparse Mixtures of Experts 方法，通过一种综合框架将各种方法整合在一起以近似两层神经网络，并提出方法来改进这种方法，这样可以使大型语言模型在资源利用方面更加高效。

Oct, 2023

U2++ 模型：以最小对 RTF 影响的方式扩展 4.7 倍参数

通过学习仅激活训练和推理中的一部分参数，混合专家 (MoE) 被提出作为一种高效能的能源路径，用于更大、更强大的语言模型。本文通过将 MoE 层替代所有前馈网络 (FFN) 层，展示了一个简单有效的 ASR 模型，并基于统一的双向注意解码器 (U2++) 实现了流式和非流式解码模式。我们希望本研究能促进无损耗部署的语音基础模型的扩展研究。

Apr, 2024

基于专家混合的高效大规模语言建模

本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较，并发现除了 fine-tuning 以外，在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同，值得进一步研究。

Dec, 2021

细粒度专家混合的比例尺定律

通过分析扩展的变量范围，我们建立了适用于细粒度混合专家模型的扩展规模定律，并利用这些规律为特定计算预算推导出最佳的训练配置，结果显示 Mixture of Experts 模型在规模和训练预算扩大时始终优于密集 Transformer 模型。此外，我们证明在几乎任何计算预算下，将专家的大小设置成与前馈层相似的常见做法并不是最优的。

Feb, 2024

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为 MoE 框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

ST-MoE: 设计稳定且可转移的稀疏专家模型

本文关注自然语言处理中的训练不稳定和模型精确性问题，研究提出一种设计指南，通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习，成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。

Feb, 2022

专家坚持自己的领域：面向稀疏架构的专家专用微调技术

参数高效的微调（PEFT）是为了定制具有受限资源的大型语言模型（LLMs）而关键。本文研究了 Mixture-of-Experts（MoE）架构的 LLMs 上的 PEFT 方法，主要工作内容包括：（1）研究定制任务中激活的专家的集中程度，发现特定任务的路由分布往往高度集中，而激活的专家分布在不同任务之间差异显著。（2）提出了专家定制微调（ESFT），该方法在冻结其他专家和模块的同时调整与下游任务最相关的专家；实验结果表明，我们的方法不仅提高了调整效率，还甚至超过了全参数微调的性能。（3）进一步分析 MoE 架构对专家定制微调的影响，发现具有更细粒度专家的 MoE 模型能更好地选择与下游任务最相关的专家组合，从而提高训练效率和效果。

Jul, 2024

通过混合词语专家实现记忆增强语言模型

该论文通过引入大型知识丰富词汇的路由功能和专家，以 Mixture-of-Experts (MoE) 风格模型，积极地解耦学习容量与 FLOPs，提出了一种名为 Mixture of Word Experts (MoWE) 的方法，它可以被视为一种记忆增强模型，其中一组特定于单词的专家起到了稀疏记忆的作用，研究表明，在各种 NLP 任务中，MoWE 的性能明显优于相似 FLOPs 数量的 T5 模型系列，此外，MoWE 在知识密集型任务上胜过常规的 MoE 模型，并且具有与更复杂的记忆增强方法相似的性能，而后者通常需要调用自定义机制来搜索稀疏记忆。

Nov, 2023

基于提示 - 提示的专家混合模型进行高效 LLM 生成

GRIFFIN 是一种在不同非 ReLU 激活函数的大规模语言模型 (LLMs) 中选择唯一的前馈 (FE) 专家以实现高效生成的新型无需训练的 MoE 方法。

Apr, 2024

大型语言模型预训练中稀疏前馈网络的统一视角

本文分析了 S-FFN 这种大而稀疏的前馈网络的两个主要设计选择：内存块（或专家）大小和内存块选择方法，并提供了它们相对有效性和效率的见解。在语言建模前训练中，我们发现一种更简单的选择方法 ——Avg-K，通过均值聚合隐藏状态选择块，可以比现有的 MoE 架构实现更低的困惑度。

May, 2023