Jan, 2024

多语言和全非自回归 ASR 与大型语言模型融合:一项全面研究

TL;DR在大模型时代,解码的自回归特性通常导致延迟成为一个重要瓶颈。我们提出了一个非自回归 LM 融合 ASR 系统,有效地利用了加速器硬件的并行化能力。我们的方法是将 USM 和 PaLM 2 语言模型以每个片段评分模式结合起来,在 FLEURS 和 YouTube 字幕上实现了相对 WER 的平均改进 10.8%和 3.6%。此外,我们的综合消融研究分析了关键参数,如 LLM 大小、上下文长度、词汇大小、融合方法等。例如,我们探讨了 LLM 大小从 128M 到 340B 参数对 ASR 性能的影响。该研究为实际大规模 LM 融合语音识别系统的有效性提供了有价值的见解。