深度学习中稀疏专家模型综述

Sep, 2022

A Review of Sparse Expert Models in Deep Learning

William Fedus, Jeff Dean, Barret Zoph

TL;DR稀疏专家模型是一种在近三十年中不断涌现的深度学习架构，通过在每个样本中使用参数子集来实现稀疏度，使参数计数与每个样本的计算分离，产生非常大但高效的模型，已在自然语言处理、计算机视觉和语音识别等领域中显著提高性能。

Abstract

sparse expert models are a thirty-year old concept re-emerging as a popular architecture in deep learning. This class of architecture encompasses

sparse expert models deep learning mixture-of-experts efficiency improvements

发现论文，激发创造

M6-T：探索稀疏专家模型及其进展

本文研究了稀疏专家模型中的关键因素，提出了专家原型法以改善模型质量，同时将模型规模扩大到 1 万亿参数，实现了与 TPU 相同的加速。

May, 2021

庞大的神经网络：稀疏门控专家混合层

本文介绍了一种名为 Sparsely-Gated Mixture-of-Experts layer 的新型条件计算方法，通过使用该方法在语言建模和机器翻译等任务中获得比现有技术更好的结果，而只需在计算效率方面付出少量代价。

Jan, 2017

BASE Layers：简化大规模稀疏模型的训练

通过引入均衡分配的 EXPERT 层，使得大规模语言模型中的稀疏层更加简单。通过将词汇分配到专门的 EXPERT 模块中，可以将训练和推理的效率显著提高，同时避免了使用新的超参数或辅助损失的必要。

Mar, 2021

稀疏激活的专家混合模型是具有鲁棒性的多任务学习器

使用稀疏激活的专家混合模型和任务感知门控函数结合的多任务学习方法，成功地提高了模型泛化能力、转移学习效果和鲁棒性。

Apr, 2022

专家稀疏混合模型的任务特定剪枝

通过逐步删除稀有的 expert，将 Mixture-of-Experts 模型缩减为单一的 dense 模型，以提高计算效率并提供较快的推理速度而保留整体性能。

Jun, 2022

利用稀疏全连接多层感知机进行高效的语言建模

该论文提出稀疏激活多层感知机结合混合专家模型在语言建模任务上显著提高模型容量和表达能力，同时保持运算速度稳定，相较于 Transformer-based MoEs、密集型 Transformer 和全连接 MLP 在训练效率和语言建模复杂度方面获得了 2 倍提升。并在六项下游任务中取得了优于 Transformer-based MoEs 和密集型 Transformer 的效果。

Mar, 2022

稀疏循环利用：从密集检查点训练专家混合模型

提出了一种简单的方法，即利用密集型模型的检查点初始化稀疏模型，从而重复利用一次训练的成本，实现计算效率和准确性的平衡。

Dec, 2022

Switch Transformers: 使用简单高效的稀疏性扩展至万亿级参数模型

通过 Switch Transformer 和降低精度格式，本文展示了如何简化 MoE 路由算法，降低信息交流和计算成本，以及解决训练不稳定问题，并在多语言领域提高了预训练速度并推动了现有语言模型的规模扩大，以 trillion 参数为例，实现了超过 4 倍的速度提升。

Jan, 2021

稀疏专家混合模型的表示崩溃

该研究提出了一种在低维超球面上估计令牌和专家之间路由得分的方法，克服了表示塌陷问题并取得了更为一致路由的实验结果。

Apr, 2022

自适应路由的专家软融合

本文提出了 Soft Merging of Experts with Adaptive Routing（SMEAR）算法，通过使用加权平均的单个合并专家，避免了离散路由，同时实现了标准梯度上升训练。 SEMENT 不仅不会增加计算成本，而且比使用元数据路由或通过梯度估计学习稀疏路由的模型性能更好，同时表明通过 SMEAR 学习到的专家具有显着的特化性。

Jun, 2023