Jan, 2024
温度对于 Softmax 高斯专家混合模型的采样效率是否高?
Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts?
Huy Nguyen, Pedram Akbarian, Nhat Ho
TL;DR稠密到稀疏门控专家混合模型(MoE)是稀疏 MoE 的有效替代,本文分析了稠密到稀疏门控 MoE 对高斯 MoE 下的极大似然估计的影响,并提出了一种新的激活稠密到稀疏门,以改善参数估计速率。