BriefGPT.xyz
Ask
alpha
关键词
sigmoid gating
搜索结果 - 1
混合专家模型中,Sigmoid 门控比 Softmax 门控的样本效率更高
通过理论验证,本文发现 sigmoid 门函数对于专家估计统计任务的样本效率比 softmax 门函数更高,而且在两个不同的门控制度下使用前馈网络作为专家模型的收敛速度更快。
PDF
a month ago
Prev
Next