利用 Detect and Pass 增强有限数据的口吃语音 ASR

Feb, 2022

利用 Detect and Pass 增强有限数据的口吃语音 ASR

Enhancing ASR for Stuttered Speech with Limited Data Using Detect and Pass

Olabanji Shonibare, Xiaosu Tong, Venkatesh Ravichandran

TL;DR为解决语音助手对口吃 (Speech Disorder) 人士不友好的问题，研究提出了一种简单高效的称为 “Detect and Pass” 的算法，它通过一个上下文相关的对口吃音频帧分类器，对口吃的音频进行筛选，再将这些筛选的结果传递到 ASR 模型中提高其错误率的鲁棒性。该研究表明在不同的 ASR 系统上，WER 的降低幅度达到了 23.93% 到 71.67%.

Abstract

It is estimated that around 70 million people worldwide are affected by a speech disorder called stuttering. With recent advances in Automatic Speech Recognition (ASR), voice assistants are increasingly useful in

speech disorder stuttering automatic speech recognition asr systems detect and pass

发现论文，激发创造

失传于转录：识别和量化自动语音识别系统对不流利语音的准确性偏差

这项研究评估了六个领先的自动语音识别系统对有语吃现象的言语的处理性能，并发现这些系统普遍存在的准确性偏差对不流利言语的处理，导致语法和语义不准确的转录，揭示了当前自动语音识别技术存在的重要差距，强调了有效的偏见缓解策略的必要性。

May, 2024

ASTER：面向口吃者的自动语音识别系统可访问性测试

提供一种用于测试和分析自动语音识别系统性能的测试用例生成方法，该方法通过模拟真实的口吃语音并注入多种不同类型的口吃来生成有效的测试用例，并在评估中明显增加了评估的 ASR 系统的词误差率、匹配错误率和词信息损失。

Aug, 2023

针对数据有限的发音不清和口音不标准的个性化 ASR

本文提出并评估了微调技术，以提高自动语音识别系统对非标准语音的识别准确性，特别关注两种非标准语音：肌萎缩侧索硬化症患者的言语和带口音的言语，并训练出个性化模型，相对于标准语音，相对词错误率能提高 62％和 35％，仅五分钟的训练就能带来 71％的提升，微调部分层的结果往往比微调整个模型更好，是构建肌无力性言语最先进的自动语音识别模型的第一步。

Jul, 2019

面向非流畅语音的包容性自动语音识别：级联大规模自监督学习与目标微调和数据增强

自动语音识别系统通常在处理口吃相关的流畅性障碍时出现故障，而这些故障包括意愿性中断和单词重复，从而导致不准确的转录。我们提出了一种包容性的 ASR 设计方法，利用标准语音的大规模自我监督学习，然后通过对较小的策划语音数据集进行有针对性的微调和数据增强来解决此问题。我们的数据增强技术可以通过增加各种不流畅性来丰富训练数据集，增强对这些语音模式的 ASR 处理。结果表明，即使是对于一个相对较小的标记数据集，结合数据增强，通过微调 wav2vec 2.0 也可以显著降低不流畅语音的单词错误率。我们的方法不仅推动了面向口吃者的 ASR 包容性，而且为能够适应更广泛的语音变化的 ASR 铺平了道路。

Jun, 2024

公开数据的语音增强是否有助于构建鲁棒的语音识别系统？

本研究旨在研究使用公开的噪声数据训练自动语音识别（ASR）系统的可行性，并发现使用语音增强技术进行数据清理后训练 ASR 系统比仅使用噪声数据和纯净数据训练 ASR 系统分别提高了 9.5％和 9％的单词错误率，其表现与噪声数据和纯净数据训练的理想情况相当。

Oct, 2019

关键词引导的自动语音识别适应

通过上下文偏差对 Whisper 模型进行改进，提出了一种优化行话词识别的新方法。采用关键词检测模型，利用 Whisper 编码器表示动态生成的提示来引导解码器。引入了 KG-Whisper 和 KG-Whisper-PT 两种方法来有效引导解码器，并在特定关键词的识别准确率和整体词错误率上取得了显著的改进。在未见过的语言泛化中，与 Whisper 相比，平均词错误率提高了 5.1%。

Jun, 2024

失败的另一面：探究语音识别误差对随后痴呆症分类的影响

研究使用自我监督学习的深度学习自动语音识别模型在临床设置中处理话语自然性上的困难，并探讨产生的错误对痴呆分类下游任务准确性的影响。结果表明，相对高错误率的自动语音识别系统可以产生更好的下游分类精度而非字面上的听写结果。

Nov, 2022

利用数据增强提高低资源语音识别的准确性

研究发现，利用自训练及文本转语音增广训练数据可以有效提高低资源语种的 ASR 性能，为解决数据稀缺问题提供了一种高效解决方案。

May, 2023

低延迟无 ASR 端到端口语理解系统

本文提出了一种语音理解系统，可以将一个波形分类为结构化数据 (如意图和槽) 而不需要先将其转录为文本，同时系统具有足够小的占用空间可以运行在微型控制器和嵌入式系统上，并且具有最小延迟以逐段处理输入音频数据，并得到了优秀的性能表现 (比其他类似任务的公开研究成果要好)，同时具有低延迟和更小的模型。

Nov, 2020

Stutter-TTS：受控制的口吃语音合成与改进的口吃语音识别

Stutter-TTS is a neural model that can synthesize different types of stuttering utterances for improving automatic speech recognition on stuttered speech by introducing additional tokens to represent stuttering characteristics during training.

Nov, 2022