基于实体感知模型和音素相似度评估的升降同音词定制语音识别（ASR）系统

May, 2023

基于实体感知模型和音素相似度评估的升降同音词定制语音识别（ASR）系统

Retraining-free Customized ASR for Enharmonic Words Based on a Named-Entity-Aware Model and Phoneme Similarity Estimation

PDF

Yui Sudo, Kazuya Hata, Kazuhiro Nakadai

TL;DR本文提出了一种基于实体感知的端到端自动语音识别模型和音素相似度估计的重新训练自由式定制方法，用于解决处理同音字的特定问题，实验结果表明，相对于传统的 E2E-ASR 模型，该方法在处理个人姓名作为目标实体时，平均改善了目标实体字符误差率 35.7%。

Abstract

end-to-end automatic speech recognition (E2E-ASR) has the potential to improve performance, but a specific issue that needs to be addressed is the difficulty it has in handling enharmonic words: named entities (N

end-to-end automatic speech recognition enharmonic words named-entity-aware e2e-asr model phoneme similarity estimation personal names

发现论文，激发创造

英文语音端到端命名实体识别

本文介绍了第一个公开的针对英语语音的命名实体识别 (NER) 数据集，并提出了一种端到端的方法，该方法同时优化 ASR 和 NER 标记器的组件。实验结果表明，所提出的端到端方法优于经典的两步方法，并讨论了如何使用语音的 NER 来处理 ASR 系统中的词汇外单词 (OOV)。

May, 2020

具有有限数量丰富训练数据的端到端联合丰富和标准化 ASR

比较了两种方法来训练具有有限数量的丰富标签数据的无状态变换器的端到端联合丰富和规范自动语音识别系统，其中第一种方法使用语言模型生成规范化训练数据的伪丰富转录，第二种方法使用单个解码器以输出类型为条件。第一种方法提供了更好的外域数据性能，相对误差减少了 9%。第二种方法展示了使用低至 5% 丰富训练数据的端到端联合丰富和规范自动语音识别系统的可行性，误差增加了 2.42% 绝对值。

Nov, 2023

开放领域自适应循环神经网络转录技术

这篇论文提出对 RNN-T 模型进行修改，以利用附带的元数据文本，从而改善对于命名实体词汇的识别，并在社交媒体视频数据集上取得了 16% 左右的提升。

Jun, 2020

SynthASR: 用于语音识别的合成数据解锁

本文提出了一个多阶段训练策略，包括数据增强，编码器冻结和参数正则化，并利用人工合成音频提高医疗用途语音识别（ASR）的识别性能，降低了生产数据的成本和依赖性。

Jun, 2021

语音端到端无 ASR 关键词搜索

本研究探讨一种使用最少监督训练的无自动语音识别（ASR）的端到端（E2E）系统，用于基于文本查询的关键词搜索（KWS）系统，该系统由三个子系统组成：一个基于递归神经网络（RNN）的声学自动编码器，一个使用从卷积神经网络中学到的嵌入的字符级 RNN 语言模型，以及一个输入文本查询和声纹嵌入并预测查询是否出现在声纹信息中的前馈神经网络。

Jan, 2017

使用实体复制提升上下文 ASR 的准确性

引入 CopyNE 机制，通过跨度级别复制的方法，有效避免由同音或类音词汇引起的实体识别问题，提高了自动语音识别的准确性。实验结果表明，CopyNE 在实体丰富的场景下显著降低了字符错误率和命名实体字符错误率，即使与强大的 Whisper 基线相比也仍然取得了显著的改进。

May, 2023

医学实体在口音语音中的高性能 ASR 模型

最近自动语音识别在医学领域取得了巨大进展，但对于有口音的医学术语的性能仍然不为人知。本文通过在包含 93 种非洲口音的临床英语数据集上严格评估多个自动语音识别模型，发现尽管某些模型在总体错误率上取得了很低的成绩，但临床术语上的错误率较高，可能对患者安全构成重大风险。为了实证这一点，我们从转录中提取了临床术语，开发了一种新算法来对齐自动语音识别的预测结果与这些术语，然后计算了医学术语的召回率、医学错误率和字符错误率。我们的结果表明，对有口音的临床语音进行微调可以大幅提高医学术语的错误率（相对提高 25-34%），从而提高了它们在医疗环境中的实际应用性。

Jun, 2024

具有困难负样本的上下文语音识别

该文介绍了一种用于训练上下文机制的新方法，它使用参考文本中的专有名词和音相似的短语作为负面例子，帮助神经模型学习更具有区分度的表示，应用于端到端语音识别模型中可使单词错误率相对提高达 53.1%。

Oct, 2018

快速高效语音系统统一的端到端语音识别和端点检测

通过引入 “开关” 连接，将语音识别（ASR）和端点探测（EP）训练为单一的端对端（E2E）多任务模型，并利用 ASR 音频编码器的信息来提高 EP 质量，以此来减少延迟并改善连续语音识别的识别率。

Nov, 2022

基于语音编辑的数据增强技术，提升语音识别中的语码切换和命名实体识别准确度

本文提出了一种基于文本的语音编辑模型的数据增强方法，以改善端到端自动语音识别模型在 code-switching 和命名实体识别方面的效果。实验结果表明，相对于音频拼接和神经 TTS 数据增强系统，本文提出的方法显著地提高了识别水平。

Jun, 2023