AutoMoE: 针对高效稀疏激活 Transformer 的神经结构搜索

Oct, 2022

AutoMoE: 针对高效稀疏激活 Transformer 的神经结构搜索

AutoMoE: Neural Architecture Search for Efficient Sparsely Activated Transformers

Ganesh Jawahar, Subhabrata Mukherjee, Xiaodong Liu, Young Jin Kim, Muhammad Abdul-Mageed...

TL;DRAutoMoE 利用罕见专家模型搜索出高效迪凡助手模型，较手动设计的模型可减少 3 倍的 FLOPs，与最先进的 NAS 生成的难点模型相比，可减少 23% 的 FLOPs，同时在 NMT 基准数据集上保持 BLEU 评分的平价。

Abstract

neural architecture search (NAS) has demonstrated promising results on identifying efficient transformer architectures which outperform manually designed ones for natural language tasks like neural machine transl

neural architecture search transformer architectures mixture-of-experts model sparse architectures automoe

发现论文，激发创造

高效稀疏激活变压器

本文研究了在基于 Transformer 的神经网络中引入混合专家 (MoE) 层以优化推理延迟，并提出了一个名为 PLANER 的系统，能够在保持基准准确性的同时实现推理延迟的优化，实验结果表明，这种方法能够在两个真实的语言建模任务中实现超过 2 倍的推理延迟降低。

Aug, 2022

ST-MoE: 设计稳定且可转移的稀疏专家模型

本文关注自然语言处理中的训练不稳定和模型精确性问题，研究提出一种设计指南，通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习，成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。

Feb, 2022

AutoST：基于脉冲 Transformers 的无需训练神经结构搜索

AutoST 是一种无需训练的神经网络架构搜索方法，可以通过使用 FLOPs 作为性能指标，利用激活模式在初始化期间估计 Spiking Transformers 的能耗来高效地识别高性能能耗低的 Spiking Transformers 结构，并在静态和神经形态数据集上优于手动和自动设计的 SNN 结构。

Jul, 2023

朝着参数效率化迈进：具有动态容量的分层稀疏激活变压器

本文提出了分层专家混合（SMoE）模型，该模型具有分层结构，可以为不同令牌分配动态容量，可用于提高机器翻译中的性能和减少参数不足问题。SMoE 在两个多语言机器翻译基准测试上表现出色，优于多个最先进的 MoE 模型。

May, 2023

SpeechMoE：使用动态路由混合专家扩展大规模声学模型

本文提出一种基于 MoE 的语音识别模型 SpeechMoE，引入稀疏 L1 损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性，并使用了新的路由器架构，可以同时利用共享嵌入网络的信息和不同 MoE 层的分层表示。实验结果表明，该模型在计算成本可比的情况下，相对于传统的静态网络，可以提供 7.0％-23.0％的相对 CER 改进。

May, 2021

从稀疏到软混合专家

通过软的 MoE 方法，我们可以在训练和推断成本上实现模型容量的扩展，解决了传统的 MoE 方法中存在的多个问题，在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种，并且在模型规模扩展上也有良好的性能。

Aug, 2023

稀疏超网络下的神经架构搜索

本论文旨在将神经架构搜索的问题从单路径和多路径搜索扩大到自动混合路径搜索。我们提出了一种新的连续架构表示方法，利用稀疏超网络和稀疏性约束来实现自动混合路径搜索。同时，我们采用了分层加速的近端梯度算法来优化所提出的稀疏超网络，并在卷积神经网络和循环神经网络搜索中进行了广泛的实验，证明了该方法能够搜索到紧凑、通用和强大的神经结构。

Jul, 2020

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

Auto-Keras: 一种高效的神经结构搜索系统

本研究提出了一种新的框架，利用神经网络变形和贝叶斯优化，实现了高效的神经架构搜索，并基于此开发了 Auto-Keras 的开源 AutoML 系统，该系统在不同 GPU 内存限制下具有自适应的搜索策略和 CPU 和 GPU 并行运行的能力，实验结果表明，该方法的性能优于现有技术。

Jun, 2018

移动版 V-MoEs：通过稀疏的专家混合缩小视觉变形器

通过使用稀疏混合专家模型将 Vision Transformers（ViTs）降低规模以适应资源受限的视觉应用，实现了性能和效率之间更好的平衡。

Sep, 2023