基于大规模互补神经语言模型的格栅重新评分

Dec, 2023

基于大规模互补神经语言模型的格栅重新评分

Lattice Rescoring Based on Large Ensemble of Complementary Neural Language Models

Atsunori Ogawa, Naohiro Tawara, Marc Delcroix, Shoko Araki

TL;DR我们研究了使用大规模先进神经语言模型（NLMs）对自动语音识别（ASR）假设进行格栅再评分的效果。通过将最多 8 个 NLMs 进行组合，通过迭代式格栅生成，逐步改进给定格栅弧上的语言评分，我们逐渐降低 ASR 假设的错误。此外，我们还研究了在长篇演讲等持续语音的格栅序列中传递上下文信息（先前的再评分结果）的有效性。在使用演讲语料库进行实验时，通过组合这八个 NLMs 并使用上下文传递，我们相较于 ASR 一流基准线获得了 24.4% 的相对词错误率降低。另外，我们还进行了非迭代式的 NLM 组合和使用大规模 NLMs 的 100 最佳再评分的同时比较，验证了迭代式 NLM 组合进行格栅再评分的优势。

Abstract

We investigate the effectiveness of using a large ensemble of advanced neural language models (NLMs) for lattice rescoring on automatic speech recognition (ASR) hypotheses. Previous studies have reported the effe

neural language models lattice rescoring automatic speech recognition contextual information word error rate reduction

发现论文，激发创造

基于大规模语言模型的长篇数据重打分

研究表明，在使用大规模语言模型的情况下，对于长篇 ASR 测试集，可以使 Word Error Eate 和 Salient Term Error Rate 分别减少 8% 和 30%。

Jun, 2023

可扩展的多语料神经语言模型用于 ASR

通过从异构语料库中训练神经语言模型、限制时延影响和处理第二遍修正器中的个性化偏差等挑战，本文在第二遍 n-best rescoring 框架中使用神经 LM，实现了 6.2% 的相对 WER 降低，而延迟增加很小。

Jul, 2019

语义网络重新评分提升自动语音识别系统的上下文识别能力

我们提出了一种新方法，在自动语音识别系统中通过语义格处理利用深度学习模型来提高上下文识别的能力，从而准确地递交准确的转录结果，涵盖广泛的词汇和说话风格。我们在隐藏马尔可夫模型和高斯混合模型以及深度神经网络模型上融合语言和声学建模，通过使用基于 Transformer 的模型对单词格进行重新评分，实现了显著的性能提升和词错误率的明显降低，在 LibriSpeech 数据集上进行了实证分析，证明了我们提出的框架的有效性。

Oct, 2023

利用大型语言模型进行生成式语音识别误差校正

使用大型语言模型进行 ASR 后处理，通过指令提示和上下文学习改进错误纠正，与领域精调模型相比，显示了语言模型的泛化能力。

Sep, 2023

大规模语言模型重评分对竞争性 ASR 系统的影响与分析

本研究将大型语言模型（如 GPT-2, BERT, RoBERTa）应用于 ASR N-best rescoring，并将其与竞争性高、接近最新技术水平的 ASR 系统相结合。通过实验发现大型语言模型的双向性、预训练、领域内微调和上下文增强对 ASR 性能有显著改善作用，而词汇分析揭示了这些组件如何对 ASR 性能贡献。

Apr, 2022

多阶段大型语言模型纠错用于语音识别

使用大型语言模型提高竞争性语音识别系统的性能，并通过多阶段方法结合传统语言模型重新评分和大型语言模型提示来进行 ASR 错误修正。

Oct, 2023

应用 LLMs 对非正式对话的 ASR 候选解进行再评分：领域适应和上下文传递的影响

大语言模型已成功应用于重新评分自动语音识别假设，本研究揭示了它在非正式谈话中重新评分自动语音识别假设的能力，证明了 Llama2 在 CHiME-7 远程 ASR 任务上的优越性。

Jun, 2024

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用 LLMs 的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

利用大型语言模型攫取 ASR 不确定性

利用 n-best 列表提示方法，我们改善了基于大型语言模型的口语理解任务，使其能够更好地理解口语意图并应用于基于语音的应用。

Sep, 2023

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在 Multilingual LibriSpeech 上的实验证明，即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时，多语种 ASR 仍然可行，从而为 LLMs 在长篇音频中进行操作开辟了可能性。

Jul, 2023