利用稀疏全连接多层感知机进行高效的语言建模

Mar, 2022

利用稀疏全连接多层感知机进行高效的语言建模

Efficient Language Modeling with Sparse all-MLP

Ping Yu, Mikel Artetxe, Myle Ott, Sam Shleifer, Hongyu Gong...

TL;DR该论文提出稀疏激活多层感知机结合混合专家模型在语言建模任务上显著提高模型容量和表达能力，同时保持运算速度稳定，相较于 Transformer-based MoEs、密集型 Transformer 和全连接 MLP 在训练效率和语言建模复杂度方面获得了 2 倍提升。并在六项下游任务中取得了优于 Transformer-based MoEs 和密集型 Transformer 的效果。

Abstract

all-mlp architectures have attracted increasing interest as an alternative to attention-based models. In NLP, recent work like gMLP shows that all-MLPs can match Transformers in language modeling, but still lag b

all-mlp sparsely activated mlps mixture-of-experts language modeling training efficiency

发现论文，激发创造

稀疏激活的专家混合模型是具有鲁棒性的多任务学习器

使用稀疏激活的专家混合模型和任务感知门控函数结合的多任务学习方法，成功地提高了模型泛化能力、转移学习效果和鲁棒性。

Apr, 2022

密集训练，稀疏推断：重思混合专家语言模型的训练

通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE)，在保持性能的同时实现了强大的计算和参数效率，比标准稀疏 MoE 更具参数效率，在总参数大小和性能方面与密集模型持平，而且计算成本更低。

Apr, 2024

朝着参数效率化迈进：具有动态容量的分层稀疏激活变压器

本文提出了分层专家混合（SMoE）模型，该模型具有分层结构，可以为不同令牌分配动态容量，可用于提高机器翻译中的性能和减少参数不足问题。SMoE 在两个多语言机器翻译基准测试上表现出色，优于多个最先进的 MoE 模型。

May, 2023

庞大的神经网络：稀疏门控专家混合层

本文介绍了一种名为 Sparsely-Gated Mixture-of-Experts layer 的新型条件计算方法，通过使用该方法在语言建模和机器翻译等任务中获得比现有技术更好的结果，而只需在计算效率方面付出少量代价。

Jan, 2017

混合专家语言模型的快速推断与卸载

通过参数卸载算法和利用 MoE LLMs 的固有属性提出一种新策略，使消费者硬件和免费 Google Colab 实例上能够运行 Mixtral-8x7B 型号的 MoE 语言模型。

Dec, 2023

高效变换器的基于近似的两层前馈网络

如何在不牺牲性能的情况下减少神经网络的计算和内存需求？本研究提出了 sparse Mixtures of Experts 方法，通过一种综合框架将各种方法整合在一起以近似两层神经网络，并提出方法来改进这种方法，这样可以使大型语言模型在资源利用方面更加高效。

Oct, 2023

基于专家混合的高效大规模语言建模

本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较，并发现除了 fine-tuning 以外，在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同，值得进一步研究。

Dec, 2021

ST-MoE: 设计稳定且可转移的稀疏专家模型

本文关注自然语言处理中的训练不稳定和模型精确性问题，研究提出一种设计指南，通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习，成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。

Feb, 2022

稀疏专家混合下的视觉语言模型扩展

本研究探讨了使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战，并在等效计算成本下实现最先进性能的潜力，通过稀疏门控专家组对模型解释性的影响及其与 VLM 扩展计算性能之间的折衷，本文为大规模视觉语言模型的扩展提供了宝贵的洞见，并希望能够激发对 MoE 在其他多模态机器学习应用中的研究。

Mar, 2023

基于专家混合的语言模型中的自适应门控

在该研究中，作者提出了自适应门控混合专家模型，通过采用可变数量的专家处理令牌，实现了稀疏度的保持和训练效率的提高，通过大量实验验证了这种方法在减少训练时间的同时，保持推理质量。

Oct, 2023