BriefGPT.xyz
Ask
alpha
关键词
softmax gating
搜索结果 - 2
混合专家模型中,Sigmoid 门控比 Softmax 门控的样本效率更高
通过理论验证,本文发现 sigmoid 门函数对于专家估计统计任务的样本效率比 softmax 门函数更高,而且在两个不同的门控制度下使用前馈网络作为专家模型的收敛速度更快。
PDF
a month ago
高斯专家混合模型中的 Softmax 门控解密
通过引入新的 Vononoi 损失函数,建立最大似然估计器的收敛速度,解决了 softmax gating 高斯混合专家的参数估计中的三种理论挑战。
PDF
a year ago
Prev
Next