Apr, 2024

U2++ 模型:以最小对 RTF 影响的方式扩展 4.7 倍参数

TL;DR通过学习仅激活训练和推理中的一部分参数,混合专家 (MoE) 被提出作为一种高效能的能源路径,用于更大、更强大的语言模型。本文通过将 MoE 层替代所有前馈网络 (FFN) 层,展示了一个简单有效的 ASR 模型,并基于统一的双向注意解码器 (U2++) 实现了流式和非流式解码模式。我们希望本研究能促进无损耗部署的语音基础模型的扩展研究。