针对数据有限的发音不清和口音不标准的个性化 ASR

Jul, 2019

针对数据有限的发音不清和口音不标准的个性化 ASR

Personalizing ASR for Dysarthric and Accented Speech with Limited Data

Joel Shor, Dotan Emanuel, Oran Lang, Omry Tuval, Michael Brenner...

TL;DR本文提出并评估了微调技术，以提高自动语音识别系统对非标准语音的识别准确性，特别关注两种非标准语音：肌萎缩侧索硬化症患者的言语和带口音的言语，并训练出个性化模型，相对于标准语音，相对词错误率能提高 62％和 35％，仅五分钟的训练就能带来 71％的提升，微调部分层的结果往往比微调整个模型更好，是构建肌无力性言语最先进的自动语音识别模型的第一步。

Abstract

automatic speech recognition (ASR) systems have dramatically improved over the last few years. ASR systems are most often trained from 'typical' speech, which means that underrepresented groups don't experience the same level of improvement. In this paper, we present and evaluate

automatic speech recognition finetuning non-standard speech als accented speech

发现论文，激发创造

渐进性发音障碍对 ASR 性能的分析

本文分析了自动语音识别模型在变化的语音环境下的性能衰减问题和如何通过个性化模型、连续录音等方法实现优化识别的目的。

Oct, 2022

发音障碍者语音的潜在短语匹配

设计了一种基于 qery-by-example 的个人化短语识别系统，针对特殊人群的语音模式进行培训，实验数据表明，该系统相对于商用语音识别系统，无论严重程度都取得了 60% 的识别改进，当训练 50 个独特短语时，一致优于 ASR 系统。

Jun, 2023

重音语音识别综述

该研究论文探讨了自动语音识别（ASR）系统在不同语音口音上的普适性问题，分析了当前最有前景的口音识别方法，并强调了其中的关键挑战。

Apr, 2021

为 ASR 数据增强精确合成口吃病患者语音

该研究提出了一种新的口吃性语音合成方法，用于自动语音识别 (ASR) 训练数据的增强，并通过主观评估证明了合成语音与真实口吃性语音在口吃感和相似性方面的相似性，特别是对于严重口吃者。

Aug, 2023

面向特定领域语音识别的深度学习系统

使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型，提出了基于领域的语音自动识别系统，并通过半监督机器注释的方式收集领域特定的数据，研究结果表明，该系统即使在具有更高的字词错误率的情况下，性能仍优于商业自动语音识别系统，且在人工转录的结果上也呈现出类似的效果。同时，也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。

Mar, 2023

利用数据增强提高低资源语音识别的准确性

研究发现，利用自训练及文本转语音增广训练数据可以有效提高低资源语种的 ASR 性能，为解决数据稀缺问题提供了一种高效解决方案。

May, 2023

多领域训练提高口音语音识别

本文致力于提高自动语音识别系统的准确性与泛化能力，运用多种口音以构建微调数据集用以提高模型的鲁棒性，同时展示多领域数据集优化效果。

Mar, 2023

探究自动语音识别系统对 L2 英语语音变异的敏感性

使用一种探测方法，发现了 ASR 系统处理在 L2 英语方言中的发音差异时，出现了声素级别的错误并产生了更高的 WER。这项工作系统地说明了 ASR 的行为，通过确定特定问题的物质来源来提高 ASR 的准确性。

May, 2023

跨语言自监督语音表征，提高口吃症患者的语音识别能力

使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统，对患有言语障碍的英语、西班牙语和意大利语使用者进行识别，结果表明相较于 Fbank 特征，使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。

Apr, 2022

香港中文大学口吃言语识别系统的最新进展

本文介绍了中国香港中文大学对自动语音识别技术中有关于不正常发音语音的识别问题展开的最新研究成果，利用了新型建模技术和 Bayesian model adaptation 等方法，最终取得了乌阿里语（UASpeech）失语症语音库上最低的 25.21% 字误率（WER），并在多方面相对于 2018 年的同类系统均有较大提升

Jan, 2022