超越参数计数：软专家混合中的隐性偏差

Sep, 2024

超越参数计数：软专家混合中的隐性偏差

Beyond Parameter Count: Implicit Bias in Soft Mixture of Experts

Youngseog Chung, Dhruv Malik, Jeff Schneider, Yuanzhi Li, Aarti Singh

TL;DR本研究解决了软专家混合模型在表示能力和专家专业化方面的缺陷。提出了一种新颖的专家专业化概念，并通过实证表明，当使用多个小专家时，该架构具有隐性偏差，从而有效地逼近专门化的专家子集。研究成果有助于提高推理过程中的计算效率。

Abstract

The traditional viewpoint on Sparse Mixture of Experts (MoE) models is that instead of training a single large expert, which is computationally expensive, we can train many small experts. The hope is that if the total parameter count of the small experts equals that of the singular lar

发现论文，激发创造

专家稀疏混合模型的任务特定剪枝

通过逐步删除稀有的expert，将Mixture-of-Experts模型缩减为单一的dense模型，以提高计算效率并提供较快的推理速度而保留整体性能。

Jun, 2022

重新审视单门限专家混合模型

本文提出了一种基于单门MoE的简单且高效的异步训练方法，并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡，与其他复杂的MoE相比表现优异，为单门MoE的应用提供了新的思路。

Apr, 2023

从稀疏到软混合专家

通过软的 MoE 方法，我们可以在训练和推断成本上实现模型容量的扩展，解决了传统的 MoE 方法中存在的多个问题，在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种，并且在模型规模扩展上也有良好的性能。

Aug, 2023

最小二乘估计在Softmax门限混合专家中的应用

在本研究中，我们探究了在数据按照回归模型进行采样的确定性混合专家模型下，最小二乘估计器（LSE）的性能，并建立了称为强可辨识性的条件，以表征不同类型的专家函数的收敛行为。我们证明了广泛使用的具有激活函数sigmoid和tanh的前馈网络专家的估计速度明显快于多项式专家，后者表现出令人惊讶的缓慢估计速度。我们的研究结果对专家选择具有重要的实际意义。

Feb, 2024

多线性专家混合模型: 通过分解实现可扩展的专家专业化

通过使用Multilinear Mixutre of Experts (MMoE)层来缩放专家的数量，从而实现图像模型的细粒度特化，并通过定性和定量的证据证明了其与线性层具有相当的性能，同时进一步协助修正CelebA属性分类中的人口统计偏差。

Feb, 2024

稠密专家混合模型的泛化误差分析：初步研究

在这篇论文中，我们探索了稀疏专家混合模型（Sparse MoE）在各种关键因素下的泛化误差，并从经典学习理论的角度提供了如何使用稀疏性来提高混合模型泛化性能的见解。

Mar, 2024

SEER-MoE：稀疏专家效率通过正则化的混合专家模型

我们的研究引入了SEER-MoE，这是一个新颖的两阶段框架，用于减少预训练MoE模型的内存占用和计算需求。第一阶段通过使用重要数据计数指导来修剪专家的总数，而第二阶段采用基于正则化的微调策略来恢复准确性损失并减少推断过程中激活的专家数量。我们的实证研究证明了我们的方法的有效性，使得经过优化的稀疏MoEs模型在推断效率方面具有最小的准确性妥协。

Apr, 2024

密集训练，稀疏推断：重思混合专家语言模型的训练

通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE)，在保持性能的同时实现了强大的计算和参数效率，比标准稀疏 MoE 更具参数效率，在总参数大小和性能方面与密集模型持平，而且计算成本更低。

Apr, 2024

混合专家模型中，Sigmoid 门控比 Softmax 门控的样本效率更高

通过理论验证，本文发现sigmoid门函数对于专家估计统计任务的样本效率比softmax门函数更高，而且在两个不同的门控制度下使用前馈网络作为专家模型的收敛速度更快。

May, 2024

大规模视觉语言模型中的混合专家中的令牌梯度冲突解决

使用基于令牌级梯度分析的新方法，该文章旨在解决大型视觉语言模型中令牌优化冲突的问题，并通过消除专家内部的令牌冲突来提高性能。

Jun, 2024