Mar, 2022

预训练语言模型的参数高效专家混合架构

TL;DR本文提出了一种参数高效的混合专家架构,通过在专家层中共享参数矩阵中心张量的信息,并通过辅助张量增加各个专家的特异性,从而通过矩阵乘积算子来实现受量子多体物理学影响的张量分解,以解决混合专家架构中存在的参数膨胀问题,实验结果表明新方法具有更好的性能和效率。