ASR 转录中实体分布建模的记录去重技术

Jun, 2023

ASR 转录中实体分布建模的记录去重技术

Record Deduplication for Entity Distribution Modeling in ASR Transcripts

Tianyu Huang, Chung Hoon Hong, Carl Wivagg, Kanna Shimizu

TL;DR采用实体去重技术来解决语音数字助手中实体集合需要经常重构的问题，并使用环境偏置来保持与时俱进。

Abstract

voice digital assistants must keep up with trending search queries. We rely on a speech recognition model using contextual biasing with a

voice digital assistants speech recognition model contextual biasing entities entity set

发现论文，激发创造

虚拟助手的辨别式实体感知语言模型

本文研究提出了一种基于知识图谱的语言建模方法，通过有效的格栅重排过程，达到了相对句子错误率的降低，为虚拟助手 ASR 的精度提高提供了强有力的支持。

Jun, 2021

检索与复制：将 ASR 个性化扩展至大规模目录

针对自动语音识别模型的个性化问题，我们提出了一种 “检索和复制” 机制和训练策略，以改善稀有词汇和特定领域实体的识别精度，实验结果显示与基线相比，我们的方法在词错误率降低 6%，F1 得分提高 3.6%，且在每个声学帧至少提升 20% 推理速度的同时可容纳多达 20K 的大型目录。

Nov, 2023

使用 GenAI 进行重复检测

使用最新的大型语言模型和生成式人工智能技术，在常见基准数据集上使用我们提出的方法，能够将数据去重的准确率从使用自然语言处理技术的 30% 提高到近 60%。

Jun, 2024

基于实体中心查询语言模型的节省空间表示

本文通过在有限状态转换器框架内使用概率语法，提出了一种对虚拟助手的语音识别有着较好性能的方法，适用于实体识别问题。使用该方法相较于相同大小的 n-gram 模型，长尾实体查询的相对单词错误率提高了 10%。

Jun, 2022

预测实体热度以改善虚拟助手的语音实体识别

本文提出了一种基于历史用户交互的实体流行度预测方法，将其整合到虚拟助手的语音识别组件中，从而有效提高其在发现未知实体方面的识别准确率。实验证明，该方法在不影响整体识别质量的前提下，在发现新实体名称时可以相对减少 20% 的错误率。

May, 2020

从嘈杂音频转录中提取生物医学实体

自动语音识别（ASR）技术是将口语转录为文本的基本技术，广泛应用于临床领域，包括简化医学转录和与电子健康记录（EHR）系统集成。然而，ASR-NLP 领域仍存在挑战，尤其是当转录中含有噪音时，导致自然语言处理（NLP）模型的性能显著下降。本论文介绍了一个新颖的数据集，BioASR-NER，旨在填补生物医学领域 ASR-NLP 差距，重点提取不良药物反应和 Brief Test of Adult Cognition by Telephone（BTACT）考试中实体的提及。我们的数据集提供了近 2000 个干净和有噪音的录音。针对噪音挑战，我们提出了一种使用 GPT4 的创新的文本清理方法，并研究了零样本和少样本方法。我们的研究进一步进行了错误分析，揭示了转录软件中的错误类型、GPT4 的纠正和 GPT4 面临的挑战。本论文旨在促进对 ASR-NLP 差距的更好理解和潜在解决方案，最终支持改进的医疗文档化实践。

Mar, 2024

音频去识别化：一项新的实体识别任务

该文定义了语音去识别中的实体提取任务，并提出了一种包括音频转录、实体信息提取和音频流对齐等环节的处理流程，并基于 Switchboard 和 Fisher 音频数据集提出了一个新的音频去识别度量标准和评估基准，并对其结果进行了详细说明。

Mar, 2019

音频 - 文本蕴含的 ASR 错误检测

提出了一种基于语音 / 文本内涵的新型端到端 ASR 错误检测方法，该方法通过将音频和对应的文本片段之间的内涵建模为端到端任务，并利用声学编码器和语言编码器来预测内涵，实验结果表明该方法可以有效降低医学术语方面的分类错误率 12% 和 15.4%。

Jul, 2022

一种适用于嘈杂商务电话对话文本的高效实体识别系统

本研究提出了一种有效的方法，使用有噪声的商务电话对话转录本进行训练的命名实体识别 (NER) 模型，使用 LUKE 作为教师模型，使用大量弱标记数据和少量人工标注数据教授一个 smaller DistilBERT-based 学生模型，并在满足商业电话产品实际约束条件的情况下实现高准确性和即时性能

Sep, 2022

医学实体在口音语音中的高性能 ASR 模型

最近自动语音识别在医学领域取得了巨大进展，但对于有口音的医学术语的性能仍然不为人知。本文通过在包含 93 种非洲口音的临床英语数据集上严格评估多个自动语音识别模型，发现尽管某些模型在总体错误率上取得了很低的成绩，但临床术语上的错误率较高，可能对患者安全构成重大风险。为了实证这一点，我们从转录中提取了临床术语，开发了一种新算法来对齐自动语音识别的预测结果与这些术语，然后计算了医学术语的召回率、医学错误率和字符错误率。我们的结果表明，对有口音的临床语音进行微调可以大幅提高医学术语的错误率（相对提高 25-34%），从而提高了它们在医疗环境中的实际应用性。

Jun, 2024