该研究提出了一种新方法以训练拼写纠错模型来纠正注意力机制序列到序列语音识别模型中的错误,从而改进了性能。在 LibriSpeech 数据集上,该模型相对于基线模型的相对改进为 18.6%,相对于使用扩展语言模型重新评分的 n-best 列表的改进为 29.0%。
Feb, 2019
使用大型语言模型提高竞争性语音识别系统的性能,并通过多阶段方法结合传统语言模型重新评分和大型语言模型提示来进行 ASR 错误修正。
Oct, 2023
使用大型语言模型进行 ASR 后处理,通过指令提示和上下文学习改进错误纠正,与领域精调模型相比,显示了语言模型的泛化能力。
Sep, 2023
使用大量合成数据进行训练的缩放误差校正模型 (Denoising LM) 在自动语音识别 (ASR) 系统中实现了最先进的性能表现,通过合成语音进入 ASR 系统并与原始文本配对训练,DLM 取得了 1.5% 的单词错误率 (WER) 以及在 Librispeech 上新的 ASR 性能记录,并展示了取代传统语言模型的潜力。
May, 2024
研究表明,在使用大规模语言模型的情况下,对于长篇 ASR 测试集,可以使 Word Error Eate 和 Salient Term Error Rate 分别减少 8% 和 30%。
Jun, 2023
提出了一种新的自适应 ASR 模型到新目标领域的策略,其中使用大型语言模型生成目标领域文本语料库,并使用最先进的可控语音合成模型生成相应的语音,通过在上下文中进行指令微调以提高大型语言模型生成新领域文本语料库的效果,实验证明该方法在未知目标领域上能达到平均相对词错误率提高 28%,且源领域性能无降低。
利用 n-best 列表提示方法,我们改善了基于大型语言模型的口语理解任务,使其能够更好地理解口语意图并应用于基于语音的应用。
使用大型语言模型进行后处理的讲话者辨析能够显著提高辨别的准确性,并研发了能够适用于不同自动语音识别工具的综合模型。
Jun, 2024
本文介绍了两种使用 LLaMA 的零样本 ASR 领域适应方法,这两种方法可以通过一个领域特定的文本提示有效地减少跨领域 TedLium-2 和 SPGISpeech 数据集上的词错误率(WER),特别是,深度 LLM-fusion 具有更好的实体召回和词汇外单词的召回优势。
本文探究了应用语言模型(LM)到印欧语系语言的自动语音识别(ASR)系统输出结果的影响。我们使用来自多种来源的文本对 18 种印欧语系语言的 wav2vec 2.0 模型进行微调,并进行结果调整。我们的研究结果显示,经过 LM 解码后,字符错误率(CER)平均降低了 28%以上,单词错误率(WER)平均降低了约 36%。文章还表明,与多样化的 LM 相比,大型 LM 可能不会带来更大的改进。此外,我们还展示了可以在不重新训练 ASR 模型的情况下在生物医学领域的专业数据上获得高质量翻译的结果。
Mar, 2022