May, 2024
混合专家模型中,Sigmoid 门控比 Softmax 门控的样本效率更高
Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts
Huy Nguyen, Nhat Ho, Alessandro Rinaldo
TL;DR通过理论验证,本文发现 sigmoid 门函数对于专家估计统计任务的样本效率比 softmax 门函数更高,而且在两个不同的门控制度下使用前馈网络作为专家模型的收敛速度更快。