M6-T：探索稀疏专家模型及其进展

May, 2021

M6-T: Exploring Sparse Expert Models and Beyond

An Yang, Junyang Lin, Rui Men, Chang Zhou, Le Jiang...

TL;DR本文研究了稀疏专家模型中的关键因素，提出了专家原型法以改善模型质量，同时将模型规模扩大到 1 万亿参数，实现了与 TPU 相同的加速。

Abstract

mixture-of-experts (MoE) models can achieve promising results with outrageous large amount of parameters but constant computation cost, and thus it has become a trend in model scaling. Still it is a mystery how MoE layers bring quality gains by leveraging the parameters with

mixture-of-experts sparse activation expert capacity expert prototyping large-scale models

发现论文，激发创造

带有专家路由选择的专家混合模型

我们提出了一种基于专家选择的异构专家混合模型，通过让专家选择前 k 个标记来分配变量数量的专家，从而提高了训练收敛速度，并在 GLUE 基准测试中取得更高的性能。

Feb, 2022

专家稀疏混合模型的任务特定剪枝

通过逐步删除稀有的 expert，将 Mixture-of-Experts 模型缩减为单一的 dense 模型，以提高计算效率并提供较快的推理速度而保留整体性能。

Jun, 2022

一种新颖的张量专家混合并行方法用于规模化专家混合训练

本文提出一种新的混合专家神经网络架构（MoE），并采用三维混合并行算法，结合张量、专家和数据并行，进行内存和通信优化，极大地提高了 MoE 模型的训练效率和精度。

Mar, 2023

MoEC: 专家混合聚类

本研究提出了 Mixture of Expert Clusters 模型，通过在路由阶段引入基于方差的约束来促进专家层学习更多不同和适当的知识，并提出了一种专家集群结构的集群级别专家丢失策略。实验证明，该模型可以提高机器翻译和自然语言理解任务的性能，并在有限数据条件下扩展专家的性能上限，对缓解过度拟合和稀疏数据分配问题起到积极作用。

Jul, 2022

朝着参数效率化迈进：具有动态容量的分层稀疏激活变压器

本文提出了分层专家混合（SMoE）模型，该模型具有分层结构，可以为不同令牌分配动态容量，可用于提高机器翻译中的性能和减少参数不足问题。SMoE 在两个多语言机器翻译基准测试上表现出色，优于多个最先进的 MoE 模型。

May, 2023

稠密专家混合模型的泛化误差分析：初步研究

在这篇论文中，我们探索了稀疏专家混合模型（Sparse MoE）在各种关键因素下的泛化误差，并从经典学习理论的角度提供了如何使用稀疏性来提高混合模型泛化性能的见解。

Mar, 2024

基于专家混合的高效大规模语言建模

本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较，并发现除了 fine-tuning 以外，在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同，值得进一步研究。

Dec, 2021

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

ST-MoE: 设计稳定且可转移的稀疏专家模型

本文关注自然语言处理中的训练不稳定和模型精确性问题，研究提出一种设计指南，通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习，成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。

Feb, 2022

多线性专家混合模型：通过分解实现可扩展的专家专业化

通过使用 Multilinear Mixutre of Experts (MMoE) 层来缩放专家的数量，从而实现图像模型的细粒度特化，并通过定性和定量的证据证明了其与线性层具有相当的性能，同时进一步协助修正 CelebA 属性分类中的人口统计偏差。

Feb, 2024