Oct, 2023
一般性 Softmax 门控多项式逻辑混合专家的理论
A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts
Huy Nguyen, Pedram Akbarian, TrungTin Nguyen, Nhat Ho
TL;DR通过建立 softmax gating multinomial logistic MoE 模型的密度估计和参数估计的收敛性速率,我们揭示了 softmax gating 和 expert 函数之间的相互作用通过偏微分方程导致了多项式速率变慢,提出了一种新型的修改 softmax gating 函数的方法,消除了先前的相互作用,显著提高了参数估计速率。