May, 2024

稀疏专家混合模型中扰动余弦路由器的统计优势

TL;DR通过对稀疏专家混合模型中余弦路由器的计算进行全面分析,我们证明当通过添加噪声到余弦路由器中的 L2 范数来稳定余弦路由器时,无论专家的结构如何,在稀疏混合模型中估计的速度可以显著提高到多项式速度。