BriefGPT.xyz
Ask
alpha
关键词
sparse softmax gating
搜索结果 - 1
基于统计的 Top-K 稀疏 Softmax 门控混合专家
通过定义损失函数和构建高斯混合专家模型,我们从密度和参数估计的角度对顶部 K 个稀疏 Softmax 门控函数进行理论研究,发现要保证密度估计的收敛,所选取的门控函数所包含的专家数量至少必须超过与真实参数相关的某些 Voronoi 单元总基
→
PDF
10 months ago
Prev
Next