基于统计的 Top-K 稀疏 Softmax 门控混合专家

Sep, 2023

基于统计的 Top-K 稀疏 Softmax 门控混合专家

Statistical Perspective of Top-K Sparse Softmax Gating Mixture of Experts

Huy Nguyen, Pedram Akbarian, Fanqi Yan, Nhat Ho

TL;DR通过定义损失函数和构建高斯混合专家模型，我们从密度和参数估计的角度对顶部 K 个稀疏 Softmax 门控函数进行理论研究，发现要保证密度估计的收敛，所选取的门控函数所包含的专家数量至少必须超过与真实参数相关的某些 Voronoi 单元总基数，并且由于 Softmax 门控和专家函数之间的内在相互作用，参数估计速度明显变慢。

Abstract

Top-K sparse softmax gating mixture of experts has been widely used for scaling up massive deep-learning architectures without increasing the computational cost. Despite its popularity in real-world applications,

deep-learning architectures sparse softmax gating gaussian mixture of experts density estimation parameter estimation

发现论文，激发创造

高斯专家混合模型中的 Softmax 门控解密

通过引入新的 Vononoi 损失函数，建立最大似然估计器的收敛速度，解决了 softmax gating 高斯混合专家的参数估计中的三种理论挑战。

May, 2023

一般性 Softmax 门控多项式逻辑混合专家的理论

通过建立 softmax gating multinomial logistic MoE 模型的密度估计和参数估计的收敛性速率，我们揭示了 softmax gating 和 expert 函数之间的相互作用通过偏微分方程导致了多项式速率变慢，提出了一种新型的修改 softmax gating 函数的方法，消除了先前的相互作用，显著提高了参数估计速率。

Oct, 2023

温度对于 Softmax 高斯专家混合模型的采样效率是否高？

稠密到稀疏门控专家混合模型（MoE）是稀疏 MoE 的有效替代，本文分析了稠密到稀疏门控 MoE 对高斯 MoE 下的极大似然估计的影响，并提出了一种新的激活稠密到稀疏门，以改善参数估计速率。

Jan, 2024

混合专家模型中，Sigmoid 门控比 Softmax 门控的样本效率更高

通过理论验证，本文发现 sigmoid 门函数对于专家估计统计任务的样本效率比 softmax 门函数更高，而且在两个不同的门控制度下使用前馈网络作为专家模型的收敛速度更快。

May, 2024

M6-T：探索稀疏专家模型及其进展

本文研究了稀疏专家模型中的关键因素，提出了专家原型法以改善模型质量，同时将模型规模扩大到 1 万亿参数，实现了与 TPU 相同的加速。

May, 2021

高斯门控专家混合模型参数估计的收敛速率

本研究利用 Voronoi 损失函数来解决高斯门限混合专家模型参数估计中出现的内在复杂交互问题。在两种不同的场景下，对于 MLE 行为进行了分析，并最终进行了模拟研究以验证理论结果。

May, 2023

深层专家混合模型中的因子表示学习

本文扩展了专家集成模型，提出了深度专家集成模型，该模型利用多组门和专家实现了输入空间的多重化，同时保持了小型化规模，在 MNIST 数据集和语音单音素数据集上的实验结果表明，该模型能够自动发现局部化的位置相关专家和类别相关专家，并有效地使用所有专家组合。

Dec, 2013

庞大的神经网络：稀疏门控专家混合层

本文介绍了一种名为 Sparsely-Gated Mixture-of-Experts layer 的新型条件计算方法，通过使用该方法在语言建模和机器翻译等任务中获得比现有技术更好的结果，而只需在计算效率方面付出少量代价。

Jan, 2017

偏斜高斯混合专家的参数估计

在这篇论文中，我们考虑了参数估计问题，主要集中在偏离的高斯混合专家模型中。通过构建新的基于 Voronoi 的损失函数，我们准确地捕捉了最大似然估计的收敛速度，并显示出这些损失函数比高斯混合专家模型常用的广义 Wasserstein 损失函数更准确地描述了参数估计的局部收敛速度。

Feb, 2024

最小二乘估计在 Softmax 门限混合专家中的应用

在本研究中，我们探究了在数据按照回归模型进行采样的确定性混合专家模型下，最小二乘估计器（LSE）的性能，并建立了称为强可辨识性的条件，以表征不同类型的专家函数的收敛行为。我们证明了广泛使用的具有激活函数 sigmoid 和 tanh 的前馈网络专家的估计速度明显快于多项式专家，后者表现出令人惊讶的缓慢估计速度。我们的研究结果对专家选择具有重要的实际意义。

Feb, 2024