高斯专家混合模型中的 Softmax 门控解密

May, 2023

高斯专家混合模型中的 Softmax 门控解密

Demystifying Softmax Gating in Gaussian Mixture of Experts

Huy Nguyen, TrungTin Nguyen, Nhat Ho

TL;DR通过引入新的 Vononoi 损失函数，建立最大似然估计器的收敛速度，解决了 softmax gating 高斯混合专家的参数估计中的三种理论挑战。

Abstract

Understanding parameter estimation of softmax gating Gaussian mixture of experts has remained a long-standing open problem in the literature. It is mainly due to three fundamental theoretical challenges associate

softmax gating gaussian mixture of experts parameter estimation vononoi loss functions maximum likelihood estimator

发现论文，激发创造

一般性 Softmax 门控多项式逻辑混合专家的理论

通过建立 softmax gating multinomial logistic MoE 模型的密度估计和参数估计的收敛性速率，我们揭示了 softmax gating 和 expert 函数之间的相互作用通过偏微分方程导致了多项式速率变慢，提出了一种新型的修改 softmax gating 函数的方法，消除了先前的相互作用，显著提高了参数估计速率。

Oct, 2023

基于统计的 Top-K 稀疏 Softmax 门控混合专家

通过定义损失函数和构建高斯混合专家模型，我们从密度和参数估计的角度对顶部 K 个稀疏 Softmax 门控函数进行理论研究，发现要保证密度估计的收敛，所选取的门控函数所包含的专家数量至少必须超过与真实参数相关的某些 Voronoi 单元总基数，并且由于 Softmax 门控和专家函数之间的内在相互作用，参数估计速度明显变慢。

Sep, 2023

高斯门控专家混合模型参数估计的收敛速率

本研究利用 Voronoi 损失函数来解决高斯门限混合专家模型参数估计中出现的内在复杂交互问题。在两种不同的场景下，对于 MLE 行为进行了分析，并最终进行了模拟研究以验证理论结果。

May, 2023

最小二乘估计在 Softmax 门限混合专家中的应用

在本研究中，我们探究了在数据按照回归模型进行采样的确定性混合专家模型下，最小二乘估计器（LSE）的性能，并建立了称为强可辨识性的条件，以表征不同类型的专家函数的收敛行为。我们证明了广泛使用的具有激活函数 sigmoid 和 tanh 的前馈网络专家的估计速度明显快于多项式专家，后者表现出令人惊讶的缓慢估计速度。我们的研究结果对专家选择具有重要的实际意义。

Feb, 2024

混合专家模型中，Sigmoid 门控比 Softmax 门控的样本效率更高

通过理论验证，本文发现 sigmoid 门函数对于专家估计统计任务的样本效率比 softmax 门函数更高，而且在两个不同的门控制度下使用前馈网络作为专家模型的收敛速度更快。

May, 2024

偏斜高斯混合专家的参数估计

在这篇论文中，我们考虑了参数估计问题，主要集中在偏离的高斯混合专家模型中。通过构建新的基于 Voronoi 的损失函数，我们准确地捕捉了最大似然估计的收敛速度，并显示出这些损失函数比高斯混合专家模型常用的广义 Wasserstein 损失函数更准确地描述了参数估计的局部收敛速度。

Feb, 2024

温度对于 Softmax 高斯专家混合模型的采样效率是否高？

稠密到稀疏门控专家混合模型（MoE）是稀疏 MoE 的有效替代，本文分析了稠密到稀疏门控 MoE 对高斯 MoE 下的极大似然估计的影响，并提出了一种新的激活稠密到稀疏门，以改善参数估计速率。

Jan, 2024

功能性专家混合分类

本研究提出了一种基于混合专家 (mixtures-of-experts) 的方法，用于解决具有单变量函数预测器的多类别分类问题，其中门控网络和专家网络都是基于具有函数输入的多项式逻辑激活函数构建的。我们进行正则化最大似然估计，并对目标导数附加可解释的稀疏约束。我们开发了一种 EM-Lasso 算法来计算正则化 MLE，并在模拟和真实数据上评估了所提出的方法。

Feb, 2022

为了校准和一致的延迟学习而捍卫 Softmax 参数化

通过学习让机器学习分类器在更准确的专家存在时推迟决策，可以提高安全性和性能。本研究证明了以先前文献中代理损失的对称性为原因，而不是 softmax 本身，导致了未校准和无界估计的问题，并提出了一种新颖的统计一致的基于非对称 softmax 的替代损失函数，该方法可以产生有效的估计结果。我们进一步分析了我们方法的非渐近特性，并在基准数据集上验证了其性能和校准性。

Nov, 2023

深层专家混合模型中的因子表示学习

本文扩展了专家集成模型，提出了深度专家集成模型，该模型利用多组门和专家实现了输入空间的多重化，同时保持了小型化规模，在 MNIST 数据集和语音单音素数据集上的实验结果表明，该模型能够自动发现局部化的位置相关专家和类别相关专家，并有效地使用所有专家组合。

Dec, 2013