从嘈杂音频转录中提取生物医学实体

COLINGMar, 2024

从嘈杂音频转录中提取生物医学实体

Extracting Biomedical Entities from Noisy Audio Transcripts

Nima Ebadi, Kellen Morgan, Adrian Tan, Billy Linares, Sheri Osborn...

TL;DR自动语音识别（ASR）技术是将口语转录为文本的基本技术，广泛应用于临床领域，包括简化医学转录和与电子健康记录（EHR）系统集成。然而，ASR-NLP 领域仍存在挑战，尤其是当转录中含有噪音时，导致自然语言处理（NLP）模型的性能显著下降。本论文介绍了一个新颖的数据集，BioASR-NER，旨在填补生物医学领域 ASR-NLP 差距，重点提取不良药物反应和 Brief Test of Adult Cognition by Telephone（BTACT）考试中实体的提及。我们的数据集提供了近 2000 个干净和有噪音的录音。针对噪音挑战，我们提出了一种使用 GPT4 的创新的文本清理方法，并研究了零样本和少样本方法。我们的研究进一步进行了错误分析，揭示了转录软件中的错误类型、GPT4 的纠正和 GPT4 面临的挑战。本论文旨在促进对 ASR-NLP 差距的更好理解和潜在解决方案，最终支持改进的医疗文档化实践。

Abstract

automatic speech recognition (ASR) technology is fundamental in transcribing spoken language into text, with considerable applications in the clinical realm, including streamlining medical transcription and integrating with Electronic Health Record (EHR) systems. Nevertheless, challeng

automatic speech recognition named entity recognition asr-nlp gap bioasr-ner gpt4

发现论文，激发创造

医学实体在口音语音中的高性能 ASR 模型

最近自动语音识别在医学领域取得了巨大进展，但对于有口音的医学术语的性能仍然不为人知。本文通过在包含 93 种非洲口音的临床英语数据集上严格评估多个自动语音识别模型，发现尽管某些模型在总体错误率上取得了很低的成绩，但临床术语上的错误率较高，可能对患者安全构成重大风险。为了实证这一点，我们从转录中提取了临床术语，开发了一种新算法来对齐自动语音识别的预测结果与这些术语，然后计算了医学术语的召回率、医学错误率和字符错误率。我们的结果表明，对有口音的临床语音进行微调可以大幅提高医学术语的错误率（相对提高 25-34%），从而提高了它们在医疗环境中的实际应用性。

Jun, 2024

音频去识别化：一项新的实体识别任务

该文定义了语音去识别中的实体提取任务，并提出了一种包括音频转录、实体信息提取和音频流对齐等环节的处理流程，并基于 Switchboard 和 Fisher 音频数据集提出了一个新的音频去识别度量标准和评估基准，并对其结果进行了详细说明。

Mar, 2019

一种适用于嘈杂商务电话对话文本的高效实体识别系统

本研究提出了一种有效的方法，使用有噪声的商务电话对话转录本进行训练的命名实体识别 (NER) 模型，使用 LUKE 作为教师模型，使用大量弱标记数据和少量人工标注数据教授一个 smaller DistilBERT-based 学生模型，并在满足商业电话产品实际约束条件的情况下实现高准确性和即时性能

Sep, 2022

基于端到端的语音命名实体提取

该研究通过一种端到端的神经架构，直接从语音中提取命名实体，并针对语音识别和命名实体识别进行联合优化，相较于传统的流水线方法，实现了更好的命名实体识别结果（测试数据的 F-measure=0.69）

May, 2018

音频 - 文本蕴含的 ASR 错误检测

提出了一种基于语音 / 文本内涵的新型端到端 ASR 错误检测方法，该方法通过将音频和对应的文本片段之间的内涵建模为端到端任务，并利用声学编码器和语言编码器来预测内涵，实验结果表明该方法可以有效降低医学术语方面的分类错误率 12% 和 15.4%。

Jul, 2022

干净与嘈杂语音转录的强健神经机器翻译

本文研究如何使强 NMT 系统适应典型 ASR 错误，并提出适应策略以训练单一系统，能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明，对包括 ASR 转录本的大量并行数据进行调整对于相同类型的测试数据是有益的，但在翻译干净文本时会产生轻微恶化。在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。

Oct, 2019

英文语音端到端命名实体识别

本文介绍了第一个公开的针对英语语音的命名实体识别 (NER) 数据集，并提出了一种端到端的方法，该方法同时优化 ASR 和 NER 标记器的组件。实验结果表明，所提出的端到端方法优于经典的两步方法，并讨论了如何使用语音的 NER 来处理 ASR 系统中的词汇外单词 (OOV)。

May, 2020

虚拟助手的辨别式实体感知语言模型

本文研究提出了一种基于知识图谱的语言建模方法，通过有效的格栅重排过程，达到了相对句子错误率的降低，为虚拟助手 ASR 的精度提高提供了强有力的支持。

Jun, 2021

利用语境数据的两步方法：空中交通通信中的语音识别

本文通过将 ASR 和 NLP 方法相结合并利用监控数据，研究了一种两步增强 callsign 的方法，最终提高了 53.7% 的绝对召唤符号识别率和 60.4% 的相对召唤符号识别率。

Feb, 2022

医学口述实体识别

使用预训练多语言模型 XLM-R，在医学领域的首个口头命名实体识别（Spoken Named Entity Recognition）数据集 VietMed-NER 上取得了最佳表现。

Jun, 2024