超越参数计数:软专家混合中的隐性偏差
通过逐步删除稀有的expert,将Mixture-of-Experts模型缩减为单一的dense模型,以提高计算效率并提供较快的推理速度而保留整体性能。
Jun, 2022
本文提出了一种基于单门MoE的简单且高效的异步训练方法,并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡,与其他复杂的MoE相比表现优异,为单门MoE的应用提供了新的思路。
Apr, 2023
通过软的 MoE 方法,我们可以在训练和推断成本上实现模型容量的扩展,解决了传统的 MoE 方法中存在的多个问题,在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种,并且在模型规模扩展上也有良好的性能。
Aug, 2023
在本研究中,我们探究了在数据按照回归模型进行采样的确定性混合专家模型下,最小二乘估计器(LSE)的性能,并建立了称为强可辨识性的条件,以表征不同类型的专家函数的收敛行为。我们证明了广泛使用的具有激活函数sigmoid和tanh的前馈网络专家的估计速度明显快于多项式专家,后者表现出令人惊讶的缓慢估计速度。我们的研究结果对专家选择具有重要的实际意义。
Feb, 2024
通过使用Multilinear Mixutre of Experts (MMoE)层来缩放专家的数量,从而实现图像模型的细粒度特化,并通过定性和定量的证据证明了其与线性层具有相当的性能,同时进一步协助修正CelebA属性分类中的人口统计偏差。
Feb, 2024
在这篇论文中,我们探索了稀疏专家混合模型(Sparse MoE)在各种关键因素下的泛化误差,并从经典学习理论的角度提供了如何使用稀疏性来提高混合模型泛化性能的见解。
Mar, 2024
我们的研究引入了SEER-MoE,这是一个新颖的两阶段框架,用于减少预训练MoE模型的内存占用和计算需求。第一阶段通过使用重要数据计数指导来修剪专家的总数,而第二阶段采用基于正则化的微调策略来恢复准确性损失并减少推断过程中激活的专家数量。我们的实证研究证明了我们的方法的有效性,使得经过优化的稀疏MoEs模型在推断效率方面具有最小的准确性妥协。
Apr, 2024
通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE),在保持性能的同时实现了强大的计算和参数效率,比标准稀疏 MoE 更具参数效率,在总参数大小和性能方面与密集模型持平,而且计算成本更低。
Apr, 2024
通过理论验证,本文发现sigmoid门函数对于专家估计统计任务的样本效率比softmax门函数更高,而且在两个不同的门控制度下使用前馈网络作为专家模型的收敛速度更快。
May, 2024