BriefGPT.xyz
Ask
alpha
关键词
gradient mask strategy
搜索结果 - 1
预训练语言模型的参数高效专家混合架构
本文提出了一种参数高效的混合专家架构,通过在专家层中共享参数矩阵中心张量的信息,并通过辅助张量增加各个专家的特异性,从而通过矩阵乘积算子来实现受量子多体物理学影响的张量分解,以解决混合专家架构中存在的参数膨胀问题,实验结果表明新方法具有更好
→
PDF
2 years ago
Prev
Next