Mar, 2022
预训练语言模型的参数高效专家混合架构
Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained Language Models
Ze-Feng Gao, Peiyu Liu, Wayne Xin Zhao, Zhong-Yi Lu, Ji-Rong Wen
TL;DR本文提出了一种参数高效的混合专家架构,通过在专家层中共享参数矩阵中心张量的信息,并通过辅助张量增加各个专家的特异性,从而通过矩阵乘积算子来实现受量子多体物理学影响的张量分解,以解决混合专家架构中存在的参数膨胀问题,实验结果表明新方法具有更好的性能和效率。