May, 2021

SpeechMoE:使用动态路由混合专家扩展大规模声学模型

TL;DR本文提出一种基于 MoE 的语音识别模型 SpeechMoE,引入稀疏 L1 损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性,并使用了新的路由器架构,可以同时利用共享嵌入网络的信息和不同 MoE 层的分层表示。实验结果表明,该模型在计算成本可比的情况下,相对于传统的静态网络,可以提供 7.0%-23.0%的相对 CER 改进。