SpeechMoE：使用动态路由混合专家扩展大规模声学模型

May, 2021

SpeechMoE：使用动态路由混合专家扩展大规模声学模型

SpeechMoE: Scaling to Large Acoustic Models with Dynamic Routing Mixture of Experts

Zhao You, Shulin Feng, Dan Su, Dong Yu

TL;DR本文提出一种基于 MoE 的语音识别模型 SpeechMoE，引入稀疏 L1 损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性，并使用了新的路由器架构，可以同时利用共享嵌入网络的信息和不同 MoE 层的分层表示。实验结果表明，该模型在计算成本可比的情况下，相对于传统的静态网络，可以提供 7.0％-23.0％的相对 CER 改进。

Abstract

Recently, mixture of experts (MoE) based transformer has shown promising results in many domains. This is largely due to the following advantages of this architecture: firstly, MoE based →

mixture of experts transformer speech recognition router architecture character error rate

发现论文，激发创造

Mixture of Experts 的稳定路由策略

本文提出了一种两个阶段的 StableMoE 方法来解决现有的学习路由 Moe 方法中的路由波动问题，并通过在语言模型和多语言机器翻译上的实验验证了该方法的有效性。

Apr, 2022

LocMoE：一种用于大型语言模型训练的低开销 MoE

通过转换部分节点间通信为节点内通信的路由策略，我们提出了一种新颖的负载均衡和局部性相结合的路由策略，并在 PanGu-Sigma 模型上进行了改进，实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%，而不影响模型的准确性。

Jan, 2024

从稀疏到软混合专家

通过软的 MoE 方法，我们可以在训练和推断成本上实现模型容量的扩展，解决了传统的 MoE 方法中存在的多个问题，在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种，并且在模型规模扩展上也有良好的性能。

Aug, 2023

U2++ 模型：以最小对 RTF 影响的方式扩展 4.7 倍参数

通过学习仅激活训练和推理中的一部分参数，混合专家 (MoE) 被提出作为一种高效能的能源路径，用于更大、更强大的语言模型。本文通过将 MoE 层替代所有前馈网络 (FFN) 层，展示了一个简单有效的 ASR 模型，并基于统一的双向注意解码器 (U2++) 实现了流式和非流式解码模式。我们希望本研究能促进无损耗部署的语音基础模型的扩展研究。

Apr, 2024

ST-MoE: 设计稳定且可转移的稀疏专家模型

本文关注自然语言处理中的训练不稳定和模型精确性问题，研究提出一种设计指南，通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习，成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。

Feb, 2022

视觉多专家中的路由器：实证研究

该研究文章通过对计算机视觉任务中的 MoEs 中路由器的全面研究，提出了一个统一的 MoE 公式，该公式涵盖了使用两个参数化路由张量的不同 MoEs（包括基于二进制或硬分配的稀疏 MoE 和基于加权组合的软分配的稀疏 MoE），并揭示了路由器在视觉 MoE 模型中发挥至关重要作用的新见解。

Jan, 2024

朝着参数效率化迈进：具有动态容量的分层稀疏激活变压器

本文提出了分层专家混合（SMoE）模型，该模型具有分层结构，可以为不同令牌分配动态容量，可用于提高机器翻译中的性能和减少参数不足问题。SMoE 在两个多语言机器翻译基准测试上表现出色，优于多个最先进的 MoE 模型。

May, 2023

HyperMoE: 通过专家之间的迁移改进更好的专家混合

HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架，通过利用未选择的专家生成的特定模块作为补充信息，实现在保持选择稀疏性的同时利用未选择的专家的知识，从而在相同条件下显著优于现有 MoE 方法。

Feb, 2024

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

多语言机器翻译中修复低资源语言的 MoE 过拟合问题

通过引入 dropout 和条件化的 MoE 路由和课程学习技术，本研究针对低资源任务下 MoE 模型的严重过拟合问题，提出有效的正则化策略，成功提高了 MoE 模型在低资源任务中的性能，并在大规模多语种机器翻译基准测试中取得了巨大的改进。

Dec, 2022