Sep, 2023

基于统计的 Top-K 稀疏 Softmax 门控混合专家

TL;DR通过定义损失函数和构建高斯混合专家模型,我们从密度和参数估计的角度对顶部 K 个稀疏 Softmax 门控函数进行理论研究,发现要保证密度估计的收敛,所选取的门控函数所包含的专家数量至少必须超过与真实参数相关的某些 Voronoi 单元总基数,并且由于 Softmax 门控和专家函数之间的内在相互作用,参数估计速度明显变慢。