Apr, 2022

稀疏专家混合模型的表示崩溃

TL;DR该研究提出了一种在低维超球面上估计令牌和专家之间路由得分的方法,克服了表示塌陷问题并取得了更为一致路由的实验结果。