BriefGPT.xyz
Ask
alpha
关键词
activation dense-to-sparse gate
搜索结果 - 1
温度对于 Softmax 高斯专家混合模型的采样效率是否高?
稠密到稀疏门控专家混合模型(MoE)是稀疏 MoE 的有效替代,本文分析了稠密到稀疏门控 MoE 对高斯 MoE 下的极大似然估计的影响,并提出了一种新的激活稠密到稀疏门,以改善参数估计速率。
PDF
5 months ago
Prev
Next