稀疏专家混合模型的视觉扩展

Jun, 2021

Scaling Vision with Sparse Mixture of Experts

Carlos Riquelme, Joan Puigcerver, Basil Mustafa, Maxim Neumann, Rodolphe Jenatton...

TL;DR本文介绍了一种名为 Vision MoE 的稀疏版本的 Vision Transformer，在图像识别方面表现出色且需要的计算量较少。此外，本文还提出了一种路由算法的扩展来优化每个输入的处理，最终通过训练一个达到 153 亿参数的模型，V-MoE 成功实现了高度可扩展的视觉建模。

Abstract

Sparsely-gated mixture of experts networks (MoEs) have demonstrated excellent scalability in Natural Language Processing. In Computer Vision, however, almost all performant networks are "dense", that is, every input is processed by every parameter. We present a →

mixture of experts networks vision moe vision transformer image recognition routing algorithm

发现论文，激发创造

移动版 V-MoEs：通过稀疏的专家混合缩小视觉变形器

通过使用稀疏混合专家模型将 Vision Transformers（ViTs）降低规模以适应资源受限的视觉应用，实现了性能和效率之间更好的平衡。

Sep, 2023

稀疏专家混合下的视觉语言模型扩展

本研究探讨了使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战，并在等效计算成本下实现最先进性能的潜力，通过稀疏门控专家组对模型解释性的影响及其与 VLM 扩展计算性能之间的折衷，本文为大规模视觉语言模型的扩展提供了宝贵的洞见，并希望能够激发对 MoE 在其他多模态机器学习应用中的研究。

Mar, 2023

从稀疏到软混合专家

通过软的 MoE 方法，我们可以在训练和推断成本上实现模型容量的扩展，解决了传统的 MoE 方法中存在的多个问题，在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种，并且在模型规模扩展上也有良好的性能。

Aug, 2023

MoE-LLaVA：大规模视觉语言模型的专家混合

本文介绍了一种针对大型视觉语言模型 (LVLMs) 的训练策略 MoE-tuning，通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型，有效解决多模态学习和模型稀疏性带来的性能退化问题。此外，本文还提出了基于 MoE 的稀疏 LVLM 架构 MoE-LLaVA，通过在部署过程中仅激活前 k 个专家，使剩余的专家处于非活跃状态。实验证明，MoE-LLaVA 在视觉理解方面具有出色的能力，并且在模型输出的对象幻象基准测试中超越了 LLaVA-1.5-13B，在各种视觉理解数据集上表现可与 LLaVA-1.5-7B 相媲美。通过 MoE-LLaVA，我们旨在为稀疏 LVLMs 建立基准，并为未来开发更高效和有效的多模态学习系统提供有价值的见解。

Jan, 2024

残差混合专家

本篇论文提出了一种名为 RMoE 的训练 pipeline，用于在下游视觉任务中高效地训练 MoE 视觉 transformer，该方法的核心思想是通过因式分解将 MoE 的权重分解成独立于输入的核和依赖于输入的残差两部分，从而实现了极高的训练效率。

Apr, 2022

SpeechMoE：使用动态路由混合专家扩展大规模声学模型

本文提出一种基于 MoE 的语音识别模型 SpeechMoE，引入稀疏 L1 损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性，并使用了新的路由器架构，可以同时利用共享嵌入网络的信息和不同 MoE 层的分层表示。实验结果表明，该模型在计算成本可比的情况下，相对于传统的静态网络，可以提供 7.0％-23.0％的相对 CER 改进。

May, 2021

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

FlexMoE: 通过动态设备放置实现大规模稀疏预训练模型训练的扩展

本文提出了一种名为 FlexMoE 的 DNN 训练框架，通过动态专家管理和设备布置机制，以及调度模块来优化大规模预训练模型训练过程中动态数据流所导致的效率问题，实验表明其在自然语言处理模型和视觉模型等领域具有较强的可扩展性和优越的性能。

Apr, 2023

MoEC: 专家混合聚类

本研究提出了 Mixture of Expert Clusters 模型，通过在路由阶段引入基于方差的约束来促进专家层学习更多不同和适当的知识，并提出了一种专家集群结构的集群级别专家丢失策略。实验证明，该模型可以提高机器翻译和自然语言理解任务的性能，并在有限数据条件下扩展专家的性能上限，对缓解过度拟合和稀疏数据分配问题起到积极作用。

Jul, 2022

ST-MoE: 设计稳定且可转移的稀疏专家模型

本文关注自然语言处理中的训练不稳定和模型精确性问题，研究提出一种设计指南，通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习，成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。

Feb, 2022