通过混合词语专家实现记忆增强语言模型

Nov, 2023

通过混合词语专家实现记忆增强语言模型

Memory Augmented Language Models through Mixture of Word Experts

Cicero Nogueira dos Santos, James Lee-Thorp, Isaac Noble, Chung-Ching Chang, David Uthus

TL;DR该论文通过引入大型知识丰富词汇的路由功能和专家，以 Mixture-of-Experts (MoE) 风格模型，积极地解耦学习容量与 FLOPs，提出了一种名为 Mixture of Word Experts (MoWE) 的方法，它可以被视为一种记忆增强模型，其中一组特定于单词的专家起到了稀疏记忆的作用，研究表明，在各种 NLP 任务中，MoWE 的性能明显优于相似 FLOPs 数量的 T5 模型系列，此外，MoWE 在知识密集型任务上胜过常规的 MoE 模型，并且具有与更复杂的记忆增强方法相似的性能，而后者通常需要调用自定义机制来搜索稀疏记忆。

Abstract

scaling up the number of parameters of language models has proven to be an effective approach to improve performance. For dense models, increasing model size proportionally increases the model's computation footp

scaling up language models mixture-of-experts knowledge-rich vocabulary nlp tasks

发现论文，激发创造

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为 MoE 框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

混合专家语言模型的快速推断与卸载

通过参数卸载算法和利用 MoE LLMs 的固有属性提出一种新策略，使消费者硬件和免费 Google Colab 实例上能够运行 Mixtral-8x7B 型号的 MoE 语言模型。

Dec, 2023

基于专家混合的高效大规模语言建模

本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较，并发现除了 fine-tuning 以外，在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同，值得进一步研究。

Dec, 2021

HyperMoE: 通过专家之间的迁移改进更好的专家混合

HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架，通过利用未选择的专家生成的特定模块作为补充信息，实现在保持选择稀疏性的同时利用未选择的专家的知识，从而在相同条件下显著优于现有 MoE 方法。

Feb, 2024

一种新颖的张量专家混合并行方法用于规模化专家混合训练

本文提出一种新的混合专家神经网络架构（MoE），并采用三维混合并行算法，结合张量、专家和数据并行，进行内存和通信优化，极大地提高了 MoE 模型的训练效率和精度。

Mar, 2023

面向推理最优的混合专家大语言模型

基于混合专家的大型语言模型（如最近的 Mixtral 和 DeepSeek-MoE）在规模大小上显示出巨大潜力，其训练成本不会像密集变换器那样呈二次增长。然而，我们发现增加专家的数量会导致递减收益，因此我们建议将推理效率作为模型缩放定律的指标之一，以在相同性能下提供最好的解决方案。

Apr, 2024

预训练语言模型的参数高效专家混合架构

本文提出了一种参数高效的混合专家架构，通过在专家层中共享参数矩阵中心张量的信息，并通过辅助张量增加各个专家的特异性，从而通过矩阵乘积算子来实现受量子多体物理学影响的张量分解，以解决混合专家架构中存在的参数膨胀问题，实验结果表明新方法具有更好的性能和效率。

Mar, 2022

不是所有专家都是平等的：用于混合专家大型语言模型的高效专家修剪和跳过

通过引入插拔式专家级稀疏化技术，本文主要针对 MoE LLMs 的部署效率进行了改进，提出了任务无关和任务特定的专家修剪和跳过方法，从而同时减小模型大小、增加推理速度并保持满意的性能。

Feb, 2024

将专家合并为一体：提高混合专家的计算效率

本研究主要通过提出一种计算较为高效的方法 Merging Experts into One（MEO）来降低计算成本，并通过实验证明其优越性以及如何进一步提高效率和性能。

Oct, 2023