如何在不牺牲性能的情况下减少神经网络的计算和内存需求?本研究提出了 sparse Mixtures of Experts 方法,通过一种综合框架将各种方法整合在一起以近似两层神经网络,并提出方法来改进这种方法,这样可以使大型语言模型在资源利用方面更加高效。
Oct, 2023
通过学习仅激活训练和推理中的一部分参数,混合专家 (MoE) 被提出作为一种高效能的能源路径,用于更大、更强大的语言模型。本文通过将 MoE 层替代所有前馈网络 (FFN) 层,展示了一个简单有效的 ASR 模型,并基于统一的双向注意解码器 (U2++) 实现了流式和非流式解码模式。我们希望本研究能促进无损耗部署的语音基础模型的扩展研究。
Apr, 2024
本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较,并发现除了 fine-tuning 以外,在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同,值得进一步研究。
Dec, 2021
通过分析扩展的变量范围,我们建立了适用于细粒度混合专家模型的扩展规模定律,并利用这些规律为特定计算预算推导出最佳的训练配置,结果显示 Mixture of Experts 模型在规模和训练预算扩大时始终优于密集 Transformer 模型。此外,我们证明在几乎任何计算预算下,将专家的大小设置成与前馈层相似的常见做法并不是最优的。
Feb, 2024
Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为 MoE 框架和其他模块化架构的未来研究提供了启示。
Jun, 2024
本文关注自然语言处理中的训练不稳定和模型精确性问题,研究提出一种设计指南,通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习,成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。
Feb, 2022
参数高效的微调(PEFT)是为了定制具有受限资源的大型语言模型(LLMs)而关键。本文研究了 Mixture-of-Experts(MoE)架构的 LLMs 上的 PEFT 方法,主要工作内容包括:(1)研究定制任务中激活的专家的集中程度,发现特定任务的路由分布往往高度集中,而激活的专家分布在不同任务之间差异显著。(2)提出了专家定制微调(ESFT),该方法在冻结其他专家和模块的同时调整与下游任务最相关的专家;实验结果表明,我们的方法不仅提高了调整效率,还甚至超过了全参数微调的性能。(3)进一步分析 MoE 架构对专家定制微调的影响,发现具有更细粒度专家的 MoE 模型能更好地选择与下游任务最相关的专家组合,从而提高训练效率和效果。
Jul, 2024
该论文通过引入大型知识丰富词汇的路由功能和专家,以 Mixture-of-Experts (MoE) 风格模型,积极地解耦学习容量与 FLOPs,提出了一种名为 Mixture of Word Experts (MoWE) 的方法,它可以被视为一种记忆增强模型,其中一组特定于单词的专家起到了稀疏记忆的作用,研究表明,在各种 NLP 任务中,MoWE 的性能明显优于相似 FLOPs 数量的 T5 模型系列,此外,MoWE 在知识密集型任务上胜过常规的 MoE 模型,并且具有与更复杂的记忆增强方法相似的性能,而后者通常需要调用自定义机制来搜索稀疏记忆。
Nov, 2023
GRIFFIN 是一种在不同非 ReLU 激活函数的大规模语言模型 (LLMs) 中选择唯一的前馈 (FE) 专家以实现高效生成的新型无需训练的 MoE 方法。
本文分析了 S-FFN 这种大而稀疏的前馈网络的两个主要设计选择:内存块(或专家)大小和内存块选择方法,并提供了它们相对有效性和效率的见解。在语言建模前训练中,我们发现一种更简单的选择方法 ——Avg-K,通过均值聚合隐藏状态选择块,可以比现有的 MoE 架构实现更低的困惑度。
May, 2023