门控 Dropout: 用于稀疏激活 Transformer 的通信高效正则化

ICMLMay, 2022

门控 Dropout: 用于稀疏激活 Transformer 的通信高效正则化

Gating Dropout: Communication-efficient Regularization for Sparsely Activated Transformers

Rui Liu, Young Jin Kim, Alexandre Muzio, Hany Hassan Awadalla

TL;DR本研究提出了一种名为 Gating Dropout 的方法，它可以减少深度学习模型的跨机器通讯成本，并在多语言机器翻译任务中验证了其有效性。

Abstract

Sparsely activated transformers, such as mixture of experts (MoE), have received great interest due to their outrageous scaling capability which enables dramatical increases in model size without significant increases in computational cost. To achieve this, →

mixture of experts moe models gating dropout cross-machine communication multilingual machine translation

发现论文，激发创造

基于专家混合的语言模型中的自适应门控

在该研究中，作者提出了自适应门控混合专家模型，通过采用可变数量的专家处理令牌，实现了稀疏度的保持和训练效率的提高，通过大量实验验证了这种方法在减少训练时间的同时，保持推理质量。

Oct, 2023

多语言机器翻译中修复低资源语言的 MoE 过拟合问题

通过引入 dropout 和条件化的 MoE 路由和课程学习技术，本研究针对低资源任务下 MoE 模型的严重过拟合问题，提出有效的正则化策略，成功提高了 MoE 模型在低资源任务中的性能，并在大规模多语种机器翻译基准测试中取得了巨大的改进。

Dec, 2022

庞大的神经网络：稀疏门控专家混合层

本文介绍了一种名为 Sparsely-Gated Mixture-of-Experts layer 的新型条件计算方法，通过使用该方法在语言建模和机器翻译等任务中获得比现有技术更好的结果，而只需在计算效率方面付出少量代价。

Jan, 2017

混合专家中改进专家专业化能力

本文提出一种新的 MoE 的门控网络结构，类似于注意力机制，可以在任务分解方面提高性能并导致更低的熵，同时介绍了一种新的数据驱动正则化方法，可以提高专家的专业化。

Feb, 2023

带有专家路由选择的专家混合模型

我们提出了一种基于专家选择的异构专家混合模型，通过让专家选择前 k 个标记来分配变量数量的专家，从而提高了训练收敛速度，并在 GLUE 基准测试中取得更高的性能。

Feb, 2022

令牌混合：通过跨样本聚合实现高效的 LLMs

提出了一种全可微分的模型，称为 Mixture of Tokens，它在避免了 Mixture of Experts 模型的困难的同时保留了其优点，通过在专家之前混合来自不同示例的标记，使模型能够从所有标记 - 专家组合中学习。此方法与大型语言模型的训练和推理完全兼容。

Oct, 2023

层次专家混合中的辍学正则化

本研究提出了一种 Hierarchical mixture of experts 的 dropout 变种，用于防止多层神经网络中的过拟合，可以在许多层级的树上预防 overfitting，从而提高泛化性能和提供更平滑的拟合。

Dec, 2018

重新审视单门限专家混合模型

本文提出了一种基于单门 MoE 的简单且高效的异步训练方法，并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡，与其他复杂的 MoE 相比表现优异，为单门 MoE 的应用提供了新的思路。

Apr, 2023

朝着参数效率化迈进：具有动态容量的分层稀疏激活变压器

本文提出了分层专家混合（SMoE）模型，该模型具有分层结构，可以为不同令牌分配动态容量，可用于提高机器翻译中的性能和减少参数不足问题。SMoE 在两个多语言机器翻译基准测试上表现出色，优于多个最先进的 MoE 模型。

May, 2023

预门控 MoE：用于快速可扩展的专家混合推理的算法 - 系统协同设计

基于 transformers 的大型语言模型 (LLMs) 近年取得显著进展，其成功驱动因素是其模型规模的扩大。然而，LLMs 的计算和内存需求带来了前所未有的挑战，此研究提出 Pre-gated MoE 系统，通过算法与系统的共同设计，解决传统 MoE 体系的计算和内存问题，提高性能，降低 GPU 内存消耗，并保持与传统模型的质量水平，以高性能的方式使用单个 GPU 部署大规模 LLMs。

Aug, 2023