音频去识别化：一项新的实体识别任务

ACLMar, 2019

音频去识别化：一项新的实体识别任务

Audio De-identification: A New Entity Recognition Task

Ido Cohn, Itay Laish, Genady Beryozkin, Gang Li, Izhak Shafran...

TL;DR该文定义了语音去识别中的实体提取任务，并提出了一种包括音频转录、实体信息提取和音频流对齐等环节的处理流程，并基于 Switchboard 和 Fisher 音频数据集提出了一个新的音频去识别度量标准和评估基准，并对其结果进行了详细说明。

Abstract

named entity recognition (NER) has been mostly studied in the context of written text. Specifically, NER is an important step in de-identification (de-ID) of →

named entity recognition de-identification medical records audio de-id automatic speech recognition

发现论文，激发创造

从嘈杂音频转录中提取生物医学实体

自动语音识别（ASR）技术是将口语转录为文本的基本技术，广泛应用于临床领域，包括简化医学转录和与电子健康记录（EHR）系统集成。然而，ASR-NLP 领域仍存在挑战，尤其是当转录中含有噪音时，导致自然语言处理（NLP）模型的性能显著下降。本论文介绍了一个新颖的数据集，BioASR-NER，旨在填补生物医学领域 ASR-NLP 差距，重点提取不良药物反应和 Brief Test of Adult Cognition by Telephone（BTACT）考试中实体的提及。我们的数据集提供了近 2000 个干净和有噪音的录音。针对噪音挑战，我们提出了一种使用 GPT4 的创新的文本清理方法，并研究了零样本和少样本方法。我们的研究进一步进行了错误分析，揭示了转录软件中的错误类型、GPT4 的纠正和 GPT4 面临的挑战。本论文旨在促进对 ASR-NLP 差距的更好理解和潜在解决方案，最终支持改进的医疗文档化实践。

Mar, 2024

基于现代命名实体识别技术的自由文本健康记录去识别化基准测试

本研究旨在探究采用基于深度学习的命名实体识别 (NER) 方法在坚持保留医疗数据隐私的前提下，如何更好地去识别和去除医疗记录中的敏感信息，进而使得医疗数据可以用于科学研究。其中，BiLSTM-CRF 被发现是最佳的编码 / 解码器组合方式之一；字符嵌入和 CRF 的使用倾向于在精度和召回率之间做出权衡；而单独使用 Transformer 作为上下文编码器的效果相对较差。未来的研究可以尝试结构化医疗文本以获得更好的语义和句法信息，以进一步提高 EHR 去识别效果。

Mar, 2021

基于端到端的语音命名实体提取

该研究通过一种端到端的神经架构，直接从语音中提取命名实体，并针对语音识别和命名实体识别进行联合优化，相较于传统的流水线方法，实现了更好的命名实体识别结果（测试数据的 F-measure=0.69）

May, 2018

英文语音端到端命名实体识别

本文介绍了第一个公开的针对英语语音的命名实体识别 (NER) 数据集，并提出了一种端到端的方法，该方法同时优化 ASR 和 NER 标记器的组件。实验结果表明，所提出的端到端方法优于经典的两步方法，并讨论了如何使用语音的 NER 来处理 ASR 系统中的词汇外单词 (OOV)。

May, 2020

医学口述实体识别

使用预训练多语言模型 XLM-R，在医学领域的首个口头命名实体识别（Spoken Named Entity Recognition）数据集 VietMed-NER 上取得了最佳表现。

Jun, 2024

AISHELL-NER：基于中文语音的命名实体识别

本文介绍了一个 Named Entity Recognition (NER) 的数据集 AISEHLL-NER，是用于处理中文语音的 NER 任务。文章测试了几种最先进的方法，结果表明通过组合 entity-aware ASR 和预训练的 NER tagger 可以提高模型性能，并且该数据集可以公开获取。

Feb, 2022

面向音乐推荐对话的命名实体识别研究

这项人类主题研究的目标是学习如何在有挑战性的情况下，引导设计更好的评估方法和 NER 算法，比较 NER 在有许多不规则和新颖的命名实体的对话音乐推荐查询语料库上的人类和算法表现，并分析了不同类型实体的错误模式。

Mar, 2023

一种易于使用且稳健的差分隐私临床文本去识别方法

本研究提出了一种可靠的具有差分隐私技术的去识别名字实体的替换方法，使用此方法可以对法语临床文件进行去识别，并且具有扩展性和可靠性。

Nov, 2022

命名实体识别的深度学习调查

本文基于三个维度的分类法，系统地回顾了深度学习在命名实体识别上的应用技术，并介绍了面临的挑战和未来的研究方向。

Dec, 2018

在播客中识别电影实体

本文提出了一种名词实体识别系统，旨在识别播客音频中的电影标题。我们实施了一个两阶段的方法，结合模糊匹配和对电影特定元数据敏感的线性模型，来解决计算机转录错误的问题，并且不需要显著的计算开销。在多样化的播客集上进行评估，当结合模糊匹配和线性模型时，在三个基准方法上 F1 分数增加了 20% 以上。

Sep, 2018