Jan, 2024

温度对于 Softmax 高斯专家混合模型的采样效率是否高?

TL;DR稠密到稀疏门控专家混合模型(MoE)是稀疏 MoE 的有效替代,本文分析了稠密到稀疏门控 MoE 对高斯 MoE 下的极大似然估计的影响,并提出了一种新的激活稠密到稀疏门,以改善参数估计速率。