移动版 V-MoEs：通过稀疏的专家混合缩小视觉变形器

Sep, 2023

移动版 V-MoEs：通过稀疏的专家混合缩小视觉变形器

Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts

Erik Daxberger, Floris Weers, Bowen Zhang, Tom Gunter, Ruoming Pang...

TL;DR通过使用稀疏混合专家模型将 Vision Transformers（ViTs）降低规模以适应资源受限的视觉应用，实现了性能和效率之间更好的平衡。

Abstract

sparse mixture-of-experts models (MoEs) have recently gained popularity due to their ability to decouple model size from inference efficiency by only activating a small subset of the model parameters for any give

sparse mixture-of-experts models inference efficiency resource-constrained vision applications vision transformers mobile vision moes

发现论文，激发创造

稀疏专家混合模型的视觉扩展

本文介绍了一种名为 Vision MoE 的稀疏版本的 Vision Transformer，在图像识别方面表现出色且需要的计算量较少。此外，本文还提出了一种路由算法的扩展来优化每个输入的处理，最终通过训练一个达到 153 亿参数的模型，V-MoE 成功实现了高度可扩展的视觉建模。

Jun, 2021

从稀疏到软混合专家

通过软的 MoE 方法，我们可以在训练和推断成本上实现模型容量的扩展，解决了传统的 MoE 方法中存在的多个问题，在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种，并且在模型规模扩展上也有良好的性能。

Aug, 2023

稀疏专家混合下的视觉语言模型扩展

本研究探讨了使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战，并在等效计算成本下实现最先进性能的潜力，通过稀疏门控专家组对模型解释性的影响及其与 VLM 扩展计算性能之间的折衷，本文为大规模视觉语言模型的扩展提供了宝贵的洞见，并希望能够激发对 MoE 在其他多模态机器学习应用中的研究。

Mar, 2023

MoE-LLaVA：大规模视觉语言模型的专家混合

本文介绍了一种针对大型视觉语言模型 (LVLMs) 的训练策略 MoE-tuning，通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型，有效解决多模态学习和模型稀疏性带来的性能退化问题。此外，本文还提出了基于 MoE 的稀疏 LVLM 架构 MoE-LLaVA，通过在部署过程中仅激活前 k 个专家，使剩余的专家处于非活跃状态。实验证明，MoE-LLaVA 在视觉理解方面具有出色的能力，并且在模型输出的对象幻象基准测试中超越了 LLaVA-1.5-13B，在各种视觉理解数据集上表现可与 LLaVA-1.5-7B 相媲美。通过 MoE-LLaVA，我们旨在为稀疏 LVLMs 建立基准，并为未来开发更高效和有效的多模态学习系统提供有价值的见解。

Jan, 2024

ST-MoE: 设计稳定且可转移的稀疏专家模型

本文关注自然语言处理中的训练不稳定和模型精确性问题，研究提出一种设计指南，通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习，成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。

Feb, 2022

残差混合专家

本篇论文提出了一种名为 RMoE 的训练 pipeline，用于在下游视觉任务中高效地训练 MoE 视觉 transformer，该方法的核心思想是通过因式分解将 MoE 的权重分解成独立于输入的核和依赖于输入的残差两部分，从而实现了极高的训练效率。

Apr, 2022

Edge-MoE：使用 Experts 混合方法的记忆高效式多任务视觉 Transformer 架构和任务级别稀疏性

该研究提出了 Edge-MoE 的解决方案，这是第一个针对 multi-task ViT 的端到端 FPGA 加速器，其创新包括 Novel Reordering Mechanism、Fast Single-Pass Softmax Approximation、Low-Cost GELU Approximation、Unified Computing Unit 和 Novel Patch Reordering Method。较 GPU 和 CPU 相比，Edge-MoE 的能源效率分别提高了 2.24x 和 4.90x。

May, 2023

FlexMoE: 通过动态设备放置实现大规模稀疏预训练模型训练的扩展

本文提出了一种名为 FlexMoE 的 DNN 训练框架，通过动态专家管理和设备布置机制，以及调度模块来优化大规模预训练模型训练过程中动态数据流所导致的效率问题，实验表明其在自然语言处理模型和视觉模型等领域具有较强的可扩展性和优越的性能。

Apr, 2023

视觉多专家中的路由器：实证研究

该研究文章通过对计算机视觉任务中的 MoEs 中路由器的全面研究，提出了一个统一的 MoE 公式，该公式涵盖了使用两个参数化路由张量的不同 MoEs（包括基于二进制或硬分配的稀疏 MoE 和基于加权组合的软分配的稀疏 MoE），并揭示了路由器在视觉 MoE 模型中发挥至关重要作用的新见解。

Jan, 2024

M6-T：探索稀疏专家模型及其进展

本文研究了稀疏专家模型中的关键因素，提出了专家原型法以改善模型质量，同时将模型规模扩大到 1 万亿参数，实现了与 TPU 相同的加速。

May, 2021