SimSMoE: 通过相似度测量解决表示崩溃问题

Jun, 2024

SimSMoE: 通过相似度测量解决表示崩溃问题

SimSMoE: Solving Representational Collapse via Similarity Measure

Giang Do, Hung Le, Truyen Tran

TL;DR给定一个固定的计算负载预算，基于相似性的稀疏专家混合模型 (SimSMoE) 解决了专家之间表示崩塌问题，提升了大型语言模型的性能和可伸缩性。

Abstract

sparse mixture of experts (SMoE) have emerged as an effective approach for scaling large language models while keeping a constant computational cost. Regardless of several notable successes of SMoE, effective tra

sparse mixture of experts similarity-based neural network algorithm representation collapse problem language models

发现论文，激发创造

CompeteSMoE - 通过竞争有效训练稀疏专家混合模型

通过引入竞争机制来解决稀疏专家混合（SMoE）的表示坍塌问题，我们提出了 CompeteSMoE 算法，通过部署一个简单的路由器来预测竞争结果，从而在保持低计算开销的同时实现了强大的性能提升。我们在两个变压器架构和各种任务上进行了广泛的实证评估，表明 CompeteSMoE 相对于最先进的 SMoE 策略而言具有高效性、鲁棒性和可扩展性。

Feb, 2024

融合然后压缩：从其路由策略中揭示高效 SMoE

通过专家融合和神经元排列对信息进行压缩，MC-SMoE 模型实现了高效的神经网络学习，降低了内存和计算资源的需求。

Oct, 2023

探索稀疏专家混合模型在多领域神经机器翻译中的潜力

我们关注多领域神经机器翻译，旨在开发能够处理训练期间见过的各种领域数据并对未见过的领域具有鲁棒性的高效模型。我们假设稀疏专家混合（SMoE）模型非常适合这个任务，因为它们能够实现高效的模型扩展，有助于适应各种多领域数据，并允许领域间参数的灵活共享，从而可能实现类似领域之间的知识传递，并限制负面传递。我们进行了一系列实验证实 SMoE 在多领域场景中的效用，并发现在实践中，对 Transformer 进行简单的宽度扩展是一种更简洁且出人意料地高效的方法，其达到了与 SMoE 相同的性能水平。我们还寻求多领域系统的更好鲁棒性方法，强调了混合通用领域（如 Paracrawl）的重要性，并引入了一种简单的技术，即领域随机化。

Jul, 2024

多头专家混合

多头专家混合模型 (MH-MoE) 使用多头机制将每个令牌拆分为多个子令牌，并并行分配给和处理多样的专家集，然后无缝地重新集成到原始令牌形式，从而增强了训练中的专家激活，深化了上下文理解，减轻过拟合，同时易于实施和与其他 SMoE 模型集成，对英语和多语言模型以及多模态建模任务进行了大量实验，证明了 MH-MoE 的有效性。

Apr, 2024

从稀疏到软混合专家

通过软的 MoE 方法，我们可以在训练和推断成本上实现模型容量的扩展，解决了传统的 MoE 方法中存在的多个问题，在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种，并且在模型规模扩展上也有良好的性能。

Aug, 2023

专家稀疏混合模型的任务特定剪枝

通过逐步删除稀有的 expert，将 Mixture-of-Experts 模型缩减为单一的 dense 模型，以提高计算效率并提供较快的推理速度而保留整体性能。

Jun, 2022

SE-MoE：一种可扩展且高效的专家混合分布式训练和推断系统

本文提出了 SE-MoE 模型，通过引入 Elastic MoE training、2D prefetch 和 Fusion communication 等技术，实现 Mixture-of-Experts 模型在分布式、异构计算系统上的高效训练和推理，即使在非均衡任务中也可以显著提升吞吐量同时减少内存开销。作者通过实验证明，与 DeepSpeed 相比，SE-MoE 在训练和推断中的吞吐量分别提高了 33％和 13％。

May, 2022

ST-MoE: 设计稳定且可转移的稀疏专家模型

本文关注自然语言处理中的训练不稳定和模型精确性问题，研究提出一种设计指南，通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习，成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。

Feb, 2022

分散实施的混合专家

通过引入 ScatterMoE 和 ParallelLinear，实现了在 GPU 上的 Sparse Mixture-of-Experts，并通过与 Megablocks 的对比验证了其高吞吐量和较低的内存占用，同时展示了 ParallelLinear 对 Mixture of Attention 概念的扩展性。

Mar, 2024

稀疏专家混合下的视觉语言模型扩展

本研究探讨了使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战，并在等效计算成本下实现最先进性能的潜力，通过稀疏门控专家组对模型解释性的影响及其与 VLM 扩展计算性能之间的折衷，本文为大规模视觉语言模型的扩展提供了宝贵的洞见，并希望能够激发对 MoE 在其他多模态机器学习应用中的研究。

Mar, 2023