高效稀疏激活变压器

Aug, 2022

Efficient Sparsely Activated Transformers

Salar Latifi, Saurav Muralidharan, Michael Garland

TL;DR本文研究了在基于 Transformer 的神经网络中引入混合专家 (MoE) 层以优化推理延迟，并提出了一个名为 PLANER 的系统，能够在保持基准准确性的同时实现推理延迟的优化，实验结果表明，这种方法能够在两个真实的语言建模任务中实现超过 2 倍的推理延迟降低。

Abstract

transformer-based neural networks have achieved state-of-the-art task performance in a number of machine learning domains including natural language processing and computer vision. To further improve their accuracy, recent work has explored the integration of dynamic behavior into thes

transformer-based neural networks mixture-of-expert layers inference latency language modeling tasks transformer-xl network

发现论文，激发创造

高效变换器的基于近似的两层前馈网络

如何在不牺牲性能的情况下减少神经网络的计算和内存需求？本研究提出了 sparse Mixtures of Experts 方法，通过一种综合框架将各种方法整合在一起以近似两层神经网络，并提出方法来改进这种方法，这样可以使大型语言模型在资源利用方面更加高效。

Oct, 2023

AutoMoE: 针对高效稀疏激活 Transformer 的神经结构搜索

AutoMoE 利用罕见专家模型搜索出高效迪凡助手模型，较手动设计的模型可减少 3 倍的 FLOPs，与最先进的 NAS 生成的难点模型相比，可减少 23% 的 FLOPs，同时在 NMT 基准数据集上保持 BLEU 评分的平价。

Oct, 2022

朝着参数效率化迈进：具有动态容量的分层稀疏激活变压器

本文提出了分层专家混合（SMoE）模型，该模型具有分层结构，可以为不同令牌分配动态容量，可用于提高机器翻译中的性能和减少参数不足问题。SMoE 在两个多语言机器翻译基准测试上表现出色，优于多个最先进的 MoE 模型。

May, 2023

ST-MoE: 设计稳定且可转移的稀疏专家模型

本文关注自然语言处理中的训练不稳定和模型精确性问题，研究提出一种设计指南，通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习，成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。

Feb, 2022

混合专家语言模型的快速推断与卸载

通过参数卸载算法和利用 MoE LLMs 的固有属性提出一种新策略，使消费者硬件和免费 Google Colab 实例上能够运行 Mixtral-8x7B 型号的 MoE 语言模型。

Dec, 2023

Switch Transformers: 使用简单高效的稀疏性扩展至万亿级参数模型

通过 Switch Transformer 和降低精度格式，本文展示了如何简化 MoE 路由算法，降低信息交流和计算成本，以及解决训练不稳定问题，并在多语言领域提高了预训练速度并推动了现有语言模型的规模扩大，以 trillion 参数为例，实现了超过 4 倍的速度提升。

Jan, 2021

语言理解用的可调节延迟的 Transformer 编码器

本文提出了一种可以自适应地调整推论计算成本的高效 Transformer 架构，包括 Attention Context Contribution（ACC）度量和新的策略，可用于 BERTbase 模型的微调，并且使得推论延迟提高了 4.8 倍，并且精度下降少于 0.75％。

Jan, 2022

庞大的神经网络：稀疏门控专家混合层

本文介绍了一种名为 Sparsely-Gated Mixture-of-Experts layer 的新型条件计算方法，通过使用该方法在语言建模和机器翻译等任务中获得比现有技术更好的结果，而只需在计算效率方面付出少量代价。

Jan, 2017

COST-EFF：细化多出口语言模型在空间和时间效率上的协同优化

提出了一种用于 PLM 的协作优化算法，该算法集成了静态模型压缩和动态推理加速，通过在宽度上将 PLM 变得苗条同时保持深度，同时补充逐层早期退出以动态加速推理。

Oct, 2022

利用稀疏全连接多层感知机进行高效的语言建模

该论文提出稀疏激活多层感知机结合混合专家模型在语言建模任务上显著提高模型容量和表达能力，同时保持运算速度稳定，相较于 Transformer-based MoEs、密集型 Transformer 和全连接 MLP 在训练效率和语言建模复杂度方面获得了 2 倍提升。并在六项下游任务中取得了优于 Transformer-based MoEs 和密集型 Transformer 的效果。

Mar, 2022