多语言和全非自回归 ASR 与大型语言模型融合：一项全面研究

Jan, 2024

多语言和全非自回归 ASR 与大型语言模型融合：一项全面研究

Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study

W. Ronny Huang, Cyril Allauzen, Tongzhou Chen, Kilol Gupta, Ke Hu...

TL;DR在大模型时代，解码的自回归特性通常导致延迟成为一个重要瓶颈。我们提出了一个非自回归 LM 融合 ASR 系统，有效地利用了加速器硬件的并行化能力。我们的方法是将 USM 和 PaLM 2 语言模型以每个片段评分模式结合起来，在 FLEURS 和 YouTube 字幕上实现了相对 WER 的平均改进 10.8％和 3.6％。此外，我们的综合消融研究分析了关键参数，如 LLM 大小、上下文长度、词汇大小、融合方法等。例如，我们探讨了 LLM 大小从 128M 到 340B 参数对 ASR 性能的影响。该研究为实际大规模 LM 融合语音识别系统的有效性提供了有价值的见解。

Abstract

In the era of large models, the autoregressive nature of decoding often results in latency serving as a significant bottleneck. We propose a non-

large models autoregressive lm-fused asr system parallelization capabilities asr performance

发现论文，激发创造

使用大型语言模型进行大规模多语言浅层融合

利用单一多语言语言模型（LM）来进行多语言浅层融合任务，并将其应用于最先进的端到端模型，相对于类似推理期间的密集 LM ，GLaM 可将英语长尾测试集的 WER 降低 4.4 ％，平均相对 WER 降低 3.85％，并且最高降低 10％。

Feb, 2023

语言无关端到端自动语音识别的迁移学习与语言模型融合

本文探讨了一种更好的适应低资源语言的方法，采用外部语言模型（LM）在转移学习框架下。通过在共享词汇表的统一序列到序列（S2S）架构中构建语言无关的 ASR 系统，并在整个适应阶段将外部 LM 集成到基于注意力的 S2S 模型的解码器网络中的 LM 融合转移来有效地融合目标语言的语言上下文。作者还研究了各种用于转移学习的种子模型。实验评估使用 IARPA BABEL 数据集表明，当外部文本数据可用时，LM 融合转移比简单转移学习改善了所有五种目标语言的性能。最终系统使混合系统的性能差距大大降低。

Nov, 2018

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在 Multilingual LibriSpeech 上的实验证明，即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时，多语种 ASR 仍然可行，从而为 LLMs 在长篇音频中进行操作开辟了可能性。

Jul, 2023

可扩展的多语料神经语言模型用于 ASR

通过从异构语料库中训练神经语言模型、限制时延影响和处理第二遍修正器中的个性化偏差等挑战，本文在第二遍 n-best rescoring 框架中使用神经 LM，实现了 6.2% 的相对 WER 降低，而延迟增加很小。

Jul, 2019

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用 LLMs 的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

基于大规模语言模型的长篇数据重打分

研究表明，在使用大规模语言模型的情况下，对于长篇 ASR 测试集，可以使 Word Error Eate 和 Salient Term Error Rate 分别减少 8% 和 30%。

Jun, 2023

具有强大 ASR 能力的 LMM 的令人尴尬的简单方法

通过对大型语言模型和语音基础编码器进行多种组合的基准测试和研究，本文提出了一种简单而高效的 SLAM-ASR 系统，该系统在 Librispeech 基准测试中表现出色，并且超过了最新的音频通用模型。同时，本文还探讨了基于 LLM 的 ASR 的能力发展和模态对齐的问题。

Feb, 2024

Google USM：扩展超过 100 种语言的自动语音识别

本论文介绍了通用语音模型（USM），它能够在 100 多种语言中自动识别语音，并使用多语言预训练和随机投影量化等技术来实现跨语言自动语音识别和语音到文本转换这些任务的最先进水平。同时，本文证明使用少量的标记数据集进行训练的 USM 模型在很多语言的领域内和领域外的语音识别任务中表现出了与 Whisper 模型相当或更好的性能。

Mar, 2023

利用大型语言模型攫取 ASR 不确定性

利用 n-best 列表提示方法，我们改善了基于大型语言模型的口语理解任务，使其能够更好地理解口语意图并应用于基于语音的应用。

Sep, 2023

大规模多语言自动语音识别：50 种语言，1 个模型，10 亿参数

本文探讨了利用单一声学模型进行多种语言训练，以提高低资源语言的自动语音识别性能，并简化支持多种语言的 ASR 系统的部署。作者在 51 种语言上进行广泛的基准测试和比较，表明与单语言训练相比，多语言训练的 ASR 模型可以提高识别性能，特别是对于低资源语言。与单语言基线相比，联合模型、具有语言输入的联合模型和多头模型的平均 WER 相对减少 20.9％、23％和 28.8％。据我们所知，这是第一次研究超过 50 种语言和超过 16,000 小时声音跨其的多语言 ASR 的大规模研究。

Jul, 2020