音频 - 文本蕴含的 ASR 错误检测 | BriefGPT

Jul, 2022

音频 - 文本蕴含的 ASR 错误检测

ASR Error Detection via Audio-Transcript entailment

Nimshi Venkat Meripo, Sandeep Konam

TL;DR提出了一种基于语音 / 文本内涵的新型端到端 ASR 错误检测方法，该方法通过将音频和对应的文本片段之间的内涵建模为端到端任务，并利用声学编码器和语言编码器来预测内涵，实验结果表明该方法可以有效降低医学术语方面的分类错误率 12% 和 15.4%。

Abstract

Despite improved performances of the latest automatic speech recognition (ASR) systems, transcription errors are still unavoidable. These errors can have a considerable impact in critical domains such as healthcare, when used to help with clinical documentation. Therefore, detecting AS

automatic speech recognition error detection audio-transcript entailment medical terms classification error rates

发现论文，激发创造

提高口语理解的 ASR 错误管理

介绍了一种基于神经网络的自然语言处理方法，用于识别语音识别中的错误和改进语音理解系统的性能。实验结果表明，该方案可以显著降低概念 / 值错误率，并且结合基于条件随机场的 SLU 方法和神经编码器 / 解码器注意力机制，可以识别出置信度区间和不确定性的语义输出片段，进而决定适当的错误处理措施。

May, 2017

基于 ASR 转录的语音情感识别：关于词误率和融合技术的全面研究

使用不同词错误率（WERs）的 ASR 转录对 IEMOCAP，CMU-MOSI 和 MSP-Podcast 等已知语料库进行 SER 性能评估，同时提出了一个统一的 ASR 错误抗干扰框架，并与最佳表现的 ASR 转录进行比较，实现了更低的 WER 和更高的 SER 结果，为 SER 与 ASR 协助的研究提供了洞见。

Jun, 2024

从嘈杂音频转录中提取生物医学实体

自动语音识别（ASR）技术是将口语转录为文本的基本技术，广泛应用于临床领域，包括简化医学转录和与电子健康记录（EHR）系统集成。然而，ASR-NLP 领域仍存在挑战，尤其是当转录中含有噪音时，导致自然语言处理（NLP）模型的性能显著下降。本论文介绍了一个新颖的数据集，BioASR-NER，旨在填补生物医学领域 ASR-NLP 差距，重点提取不良药物反应和 Brief Test of Adult Cognition by Telephone（BTACT）考试中实体的提及。我们的数据集提供了近 2000 个干净和有噪音的录音。针对噪音挑战，我们提出了一种使用 GPT4 的创新的文本清理方法，并研究了零样本和少样本方法。我们的研究进一步进行了错误分析，揭示了转录软件中的错误类型、GPT4 的纠正和 GPT4 面临的挑战。本论文旨在促进对 ASR-NLP 差距的更好理解和潜在解决方案，最终支持改进的医疗文档化实践。

Mar, 2024

失败的另一面：探究语音识别误差对随后痴呆症分类的影响

研究使用自我监督学习的深度学习自动语音识别模型在临床设置中处理话语自然性上的困难，并探讨产生的错误对痴呆分类下游任务准确性的影响。结果表明，相对高错误率的自动语音识别系统可以产生更好的下游分类精度而非字面上的听写结果。

Nov, 2022

语音翻译中区分 ASR 和 MT 的错误

研究自动评估口语翻译质量的方法，通过单一分类器检测 ASR 和 MT 模块可能导致的 SLT 错误，并针对 3 种任务标注提出了两种标签提取方法。

Sep, 2017

无监督领域自适应语音识别与无监督错误校正

本文提出了一种无监督自适应错误校正方法，可以在未见过的领域中恢复由领域差异引起的语音识别错误，使用伪标记技术生成学习样本，在持续学习中以减少过度拟合，并使用编码器 - 解码器校正模型结合其他信息以进一步提高适应性，实验结果表明，该方法相对于未自适应的 ASR 系统显著降低了单词错误率，并可用于其他适应方法以带来额外的 10% 的性能提升。

Sep, 2022

医疗的声音：利用大型语言模型提高医学转录自动语音识别准确性

本研究探讨了大型语言模型（LLMs）在医学转录中提高自动语音识别（ASR）系统准确性的潜力，通过使用 PriMock57 数据集对 ASR 生成的转录进行改善，改进了一般词错误率（WER）、医学概念错误率（MC-WER）和音频流分离准确性，同时通过比较不同提示技术在日记化和纠错准确性上的有效性，发现 LLMs 特别是 Chain-of-Thought（CoT）提示技术不仅改善了现有 ASR 系统的日记化准确性，而且在医学转录领域取得了卓越表现，从而更准确地捕捉医学概念并提高转录对话的语义连贯性，这些发现表明 LLMs 在增强 ASR 输出的同时，也在转录任务中独立取得了显著成果，为改进医学 ASR 系统、提高医疗保健领域的病患记录的准确性和可靠性带来巨大的希望。

Feb, 2024

面向语音的关系抽取

本文提出了一个新的听取信息提取任务，即语音关系提取，通过文本到语音系统构建训练数据集，并通过众包和本土英语演讲者构建测试数据集，探索语音关系提取的两种方法：通过预训练的 ASR 模块进行基于文本的提取的流水线方法和通过新的提出的编码器解码器模型进行端到端方法，进行了全面的实验以区分语音关系提取中的挑战，并分享了代码和数据。

Oct, 2022

利用预训练语言模型生成人类可读的自动语音识别转录

本文提出了一个自动语音识别后处理模型，旨在将不正确和嘈杂的 ASR 输出转换为可读的文本，并使用元数据提取语料库构建了一种任务特定的数据集，并使用两阶段训练策略来微调 RoBERTa 预训练模型。在测试集上，我们的模型在可读性感知 WER（RA-WER）上比基线模型提高了 13.26％，在 BLEU 度量上提高了 17.53％。人类评估还证明我们的方法可以生成比基线更易读的转录本。

Feb, 2021

失传于转录：识别和量化自动语音识别系统对不流利语音的准确性偏差

这项研究评估了六个领先的自动语音识别系统对有语吃现象的言语的处理性能，并发现这些系统普遍存在的准确性偏差对不流利言语的处理，导致语法和语义不准确的转录，揭示了当前自动语音识别技术存在的重要差距，强调了有效的偏见缓解策略的必要性。

May, 2024