May, 2024
稀疏专家混合模型中扰动余弦路由器的统计优势
Statistical Advantages of Perturbing Cosine Router in Sparse Mixture of Experts
Huy Nguyen, Pedram Akbarian, Trang Pham, Trang Nguyen, Shujian Zhang...
TL;DR通过对稀疏专家混合模型中余弦路由器的计算进行全面分析,我们证明当通过添加噪声到余弦路由器中的 L2 范数来稳定余弦路由器时,无论专家的结构如何,在稀疏混合模型中估计的速度可以显著提高到多项式速度。