May, 2024

混合专家模型中,Sigmoid 门控比 Softmax 门控的样本效率更高

TL;DR通过理论验证,本文发现 sigmoid 门函数对于专家估计统计任务的样本效率比 softmax 门函数更高,而且在两个不同的门控制度下使用前馈网络作为专家模型的收敛速度更快。