稀疏激活 Transformer 的随机专家优化

ICLROct, 2021

稀疏激活 Transformer 的随机专家优化

Taming Sparsely Activated Transformer with Stochastic Experts

Simiao Zuo, Xiaodong Liu, Jian Jiao, Young Jin Kim, Hany Hassan...

TL;DR本文提出了一种基于随机激活专家的框架 THOR，在一致性正则化损失约束下训练不同的专家，该框架在各种设置下比 Transformer 和 Mixture-of-Experts 更加参数有效，如多语言翻译中比 Switch Transformer 的 BLEU 分数高 2 个分数，并获得了 18 倍大的最先进 Mixture-of-Experts 模型相同的 BLEU 分数。

Abstract

sparsely activated models (SAMs), such as mixture-of-experts (MoE), can easily scale to have outrageously large amounts of parameters without significant increase in computational cost. However, SAMs are reported

sparsely activated models mixture-of-experts thor parameter efficiency consistency regularized loss

发现论文，激发创造

朝着参数效率化迈进：具有动态容量的分层稀疏激活变压器

本文提出了分层专家混合（SMoE）模型，该模型具有分层结构，可以为不同令牌分配动态容量，可用于提高机器翻译中的性能和减少参数不足问题。SMoE 在两个多语言机器翻译基准测试上表现出色，优于多个最先进的 MoE 模型。

May, 2023

Switch Transformers: 使用简单高效的稀疏性扩展至万亿级参数模型

通过 Switch Transformer 和降低精度格式，本文展示了如何简化 MoE 路由算法，降低信息交流和计算成本，以及解决训练不稳定问题，并在多语言领域提高了预训练速度并推动了现有语言模型的规模扩大，以 trillion 参数为例，实现了超过 4 倍的速度提升。

Jan, 2021

ST-MoE: 设计稳定且可转移的稀疏专家模型

本文关注自然语言处理中的训练不稳定和模型精确性问题，研究提出一种设计指南，通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习，成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。

Feb, 2022

M6-T：探索稀疏专家模型及其进展

本文研究了稀疏专家模型中的关键因素，提出了专家原型法以改善模型质量，同时将模型规模扩大到 1 万亿参数，实现了与 TPU 相同的加速。

May, 2021

带有专家路由选择的专家混合模型

我们提出了一种基于专家选择的异构专家混合模型，通过让专家选择前 k 个标记来分配变量数量的专家，从而提高了训练收敛速度，并在 GLUE 基准测试中取得更高的性能。

Feb, 2022

通过更稀疏的选择提高稀疏模型的效率

提出了 ool，一种新颖的 MoE 模型，通过利用小型专家和基于阈值的路由器，实现了对模型性能的提升，并在减少计算负载 50% 以上的同时，不牺牲性能。

Feb, 2024

SpeechMoE：使用动态路由混合专家扩展大规模声学模型

本文提出一种基于 MoE 的语音识别模型 SpeechMoE，引入稀疏 L1 损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性，并使用了新的路由器架构，可以同时利用共享嵌入网络的信息和不同 MoE 层的分层表示。实验结果表明，该模型在计算成本可比的情况下，相对于传统的静态网络，可以提供 7.0％-23.0％的相对 CER 改进。

May, 2021

从稀疏到软混合专家

通过软的 MoE 方法，我们可以在训练和推断成本上实现模型容量的扩展，解决了传统的 MoE 方法中存在的多个问题，在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种，并且在模型规模扩展上也有良好的性能。

Aug, 2023

一种基于专家混合的三维人体动作预测方法

本研究通过复制现有的最先进（SOTA）时空转换器模型，以尽可能符合计算限制，并批判性评估现有模型架构的优势和改进机会，以解决实时推理速度挑战，并在空间 - 时间 (ST) 关注层中引入专家混合 (MoE) 块来提高模型容量和降低推理成本。

May, 2024

难度较高的任务需要更多的专家：MoE 模型中的动态路由

本文介绍了一种新颖的动态专家选择框架用于混合专家模型 (Mixture of Experts, MoE)，旨在通过根据输入难度调整激活的专家数量来提高计算效率和模型性能。我们的方法动态选择专家，而不是像传统 MoE 方法那样依赖固定的前 K 个路由，无论输入的复杂性如何，都会激活预定数量的专家。通过广泛的评估，我们的动态路由方法在各种基准测试中显示出明显的改进，相对于常规的前 2 个路由平均改进了 0.7%，激活参数不到 90%。进一步的分析显示，我们的模型向需要复杂推理技能的任务派遣更多的专家，如 BBH，验证了它根据输入的复杂性动态分配计算资源的能力。我们的发现还凸显了变压器模型不同层之间所需专家数量的差异，为设计异构 MoE 框架提供了洞察。代码和模型可在给定的 https URL 提供。

Mar, 2024