语义网络重新评分提升自动语音识别系统的上下文识别能力

Oct, 2023

语义网络重新评分提升自动语音识别系统的上下文识别能力

Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring

Ankitha Sudarshan, Vinay Samuel, Parth Patwa, Ibtihel Amara, Aman Chadha

TL;DR我们提出了一种新方法，在自动语音识别系统中通过语义格处理利用深度学习模型来提高上下文识别的能力，从而准确地递交准确的转录结果，涵盖广泛的词汇和说话风格。我们在隐藏马尔可夫模型和高斯混合模型以及深度神经网络模型上融合语言和声学建模，通过使用基于 Transformer 的模型对单词格进行重新评分，实现了显著的性能提升和词错误率的明显降低，在 LibriSpeech 数据集上进行了实证分析，证明了我们提出的框架的有效性。

Abstract

automatic speech recognition (ASR) has witnessed a profound research interest. Recent breakthroughs have given ASR systems different prospects such as faithfully transcribing spoken language, which is a pivotal advancement in building conversational agents. However, there is still an i

automatic speech recognition context-dependent words and phrases semantic lattice processing deep learning models word error rate

发现论文，激发创造

通过上下文学习和词混淆网络实现 ASR 鲁棒性口语语言理解

通过使用自动语音识别系统的网络输出来弥补语音模糊性，增强口语语言理解的结果，通过对置信网络的词语混淆进行实验，研究大型语言模型对嘈杂的语音转录本的鲁棒性，探讨在不同自动语音识别性能条件下的影响因素。

Jan, 2024

基于大规模互补神经语言模型的格栅重新评分

我们研究了使用大规模先进神经语言模型（NLMs）对自动语音识别（ASR）假设进行格栅再评分的效果。通过将最多 8 个 NLMs 进行组合，通过迭代式格栅生成，逐步改进给定格栅弧上的语言评分，我们逐渐降低 ASR 假设的错误。此外，我们还研究了在长篇演讲等持续语音的格栅序列中传递上下文信息（先前的再评分结果）的有效性。在使用演讲语料库进行实验时，通过组合这八个 NLMs 并使用上下文传递，我们相较于 ASR 一流基准线获得了 24.4% 的相对词错误率降低。另外，我们还进行了非迭代式的 NLM 组合和使用大规模 NLMs 的 100 最佳再评分的同时比较，验证了迭代式 NLM 组合进行格栅再评分的优势。

Dec, 2023

通过学习音频 - 文本跨模态上下文表示实现会话语音识别

通过引入跨模态对话表示，结合预训练的语音和文本模型，扩展 Conformer 编码器 - 解码器模型，我们的方法能够提取更丰富的历史语音上下文，实现较标准 Conformer 模型相对准确度提升 8.8%（HKUST）和 23%（MagicData-RAMC）的结果。

Oct, 2023

ASR 纠错和语言理解的联合上下文建模

该研究提出了一种多任务神经网络方法，通过对话系统中的语音识别输出进行上下文语言纠正和语言理解以改善两个任务的性能，从而提高自动语音识别的质量。

Jan, 2020

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用 LLMs 的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

基于大规模语言模型的长篇数据重打分

研究表明，在使用大规模语言模型的情况下，对于长篇 ASR 测试集，可以使 Word Error Eate 和 Salient Term Error Rate 分别减少 8% 和 30%。

Jun, 2023

针对语音识别鲁棒性的上下文化嵌入在口语理解中的学习

本研究提出了一种新的混淆感知的微调方法，以减轻 ASR 误差对已预训练的语言模型产生的影响，并在 ATIS 数据集上进行了实验，结果表明该方法显著提高了 ASR 转录文本上口语理解的性能。

Sep, 2019

虚拟助手的辨别式实体感知语言模型

本文研究提出了一种基于知识图谱的语言建模方法，通过有效的格栅重排过程，达到了相对句子错误率的降低，为虚拟助手 ASR 的精度提高提供了强有力的支持。

Jun, 2021

深度上下文：端到端的上下文语音识别

本文提出了一种新颖的自动语音识别 (CLAS) 系统，它对上下文短语进行深层次融合，对 ASR 进行了联合优化，并且在测试阶段可以识别未知词汇，相对于传统的浅层融合方法，提高了 68% 的相对识别率。

Aug, 2018

虚拟助手语音实体知识查询的服务器端重评分

通过在服务器端对口语信息领域查询使用各种类型的语言模型（N-gram 词语模型、子词神经模型）进行重计算，结合在设备上和服务器端的信号，通过整合各种服务器端语言模型相比仅在设备上执行 ASR，证明了在各种实体中心查询子群体中提高了 23%-35% 的字词错误率（WER）。此外，通过多个从头开始训练的服务器端语言模型的模型融合最有效地结合了每个模型的互补优势，并将领域特定数据所学到的知识集成到 VA ASR 系统中。

Nov, 2023