Oct, 2023

一般性 Softmax 门控多项式逻辑混合专家的理论

TL;DR通过建立 softmax gating multinomial logistic MoE 模型的密度估计和参数估计的收敛性速率,我们揭示了 softmax gating 和 expert 函数之间的相互作用通过偏微分方程导致了多项式速率变慢,提出了一种新型的修改 softmax gating 函数的方法,消除了先前的相互作用,显著提高了参数估计速率。