面向非流畅语音的包容性自动语音识别：级联大规模自监督学习与目标微调和数据增强

Jun, 2024

面向非流畅语音的包容性自动语音识别：级联大规模自监督学习与目标微调和数据增强

Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation

PDF

Dena Mujtaba, Nihar R. Mahapatra, Megan Arney, J. Scott Yaruss, Caryn Herring...

TL;DR自动语音识别系统通常在处理口吃相关的流畅性障碍时出现故障，而这些故障包括意愿性中断和单词重复，从而导致不准确的转录。我们提出了一种包容性的 ASR 设计方法，利用标准语音的大规模自我监督学习，然后通过对较小的策划语音数据集进行有针对性的微调和数据增强来解决此问题。我们的数据增强技术可以通过增加各种不流畅性来丰富训练数据集，增强对这些语音模式的 ASR 处理。结果表明，即使是对于一个相对较小的标记数据集，结合数据增强，通过微调 wav2vec 2.0 也可以显著降低不流畅语音的单词错误率。我们的方法不仅推动了面向口吃者的 ASR 包容性，而且为能够适应更广泛的语音变化的 ASR 铺平了道路。

Abstract

automatic speech recognition (ASR) systems often falter while processing stuttering-related disfluencies -- such as involuntary blocks and word repetitions -- yielding inaccurate transcripts. A critical barrier t

automatic speech recognition stuttering-related disfluencies large-scale self-supervised learning data augmentation word error rates

发现论文，激发创造

失传于转录：识别和量化自动语音识别系统对不流利语音的准确性偏差

这项研究评估了六个领先的自动语音识别系统对有语吃现象的言语的处理性能，并发现这些系统普遍存在的准确性偏差对不流利言语的处理，导致语法和语义不准确的转录，揭示了当前自动语音识别技术存在的重要差距，强调了有效的偏见缓解策略的必要性。

May, 2024

利用数据增强提高低资源语音识别的准确性

研究发现，利用自训练及文本转语音增广训练数据可以有效提高低资源语种的 ASR 性能，为解决数据稀缺问题提供了一种高效解决方案。

May, 2023

跨语言自监督语音表征，提高口吃症患者的语音识别能力

使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统，对患有言语障碍的英语、西班牙语和意大利语使用者进行识别，结果表明相较于 Fbank 特征，使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。

Apr, 2022

针对数据有限的发音不清和口音不标准的个性化 ASR

本文提出并评估了微调技术，以提高自动语音识别系统对非标准语音的识别准确性，特别关注两种非标准语音：肌萎缩侧索硬化症患者的言语和带口音的言语，并训练出个性化模型，相对于标准语音，相对词错误率能提高 62％和 35％，仅五分钟的训练就能带来 71％的提升，微调部分层的结果往往比微调整个模型更好，是构建肌无力性言语最先进的自动语音识别模型的第一步。

Jul, 2019

使用自监督模型和多任务学习进行发音障碍语音的自动严重程度评估

使用自监督模型结合多任务学习的新颖自动程度评估方法在不充分的数据下对 Dysarthric 发音进行评估，该方法使用 Wav2vec 2.0 XLS-R 以及手工制作的声学特征和机器学习分类器，在 Korean dysarthric speech QoLT 数据库上相较传统基线方法提高了 1.25% 的 F1 值，并且相较于没有 ASR 头的模型提高了 10.61% 的相对百分比增长。我们还通过分析潜在表示和正则化效应来展示多任务学习如何影响重度分类表现。

Oct, 2022

无标记数据和小型 BERT 模型的瑕疵探测

本文研究了基于 BERT 架构的小型、快速、本地化模型的流畅检测技术，探讨了自我训练、领域自适应和数据增强等方法对性能的影响，发现对这些小型模型来说，这些策略具有更加明显的影响。

Apr, 2021

探究无序语音识别数据增强技术

本文研究了一组用于混乱语音识别的数据增强技术，包括声道长度扰动（VTLP）、节奏扰动和速度扰动，并利用正常和混乱语音进行增强处理。通过基于学习隐藏单元贡献（LHUC）的说话者自适应训练对原始和增强数据中的受损说话者之间的变异性进行建模。使用基于速度扰动的最佳增强方法构建的最终说话者自适应系统相对于没有数据增强的基线系统减少了 2.92％绝对（9.3％相对）的词错误率（WER），并在包含 16 位 Dysarthria 患者的测试集上获得了 26.37％的整体 WER。

Jan, 2022

端到端语音识别和修正发语障

探索使用端到端语音识别模型直接将混杂的语音转化为流畅的转录文本的可能性，并且我们提出了两个新的度量标准来评估集成 ASR 和无流畅度模型的性能，该论文的发现可以作为未来关于端到端语音识别和无流畅度处理任务的研究的基准。

Sep, 2020

通过扩散 GAN 提升无监督语音识别

使用扩散 - GAN 提高无监督自动语音识别的敌对训练方法。将各种强度的实例噪声注入生成器的输出和来自预训练音素语言模型的未标记参考文本，使用时间步骤相关的判别器将它们分开，并将梯度反向传播更新生成器，实验表明该增强策略能有效地提高语音识别词错误率。

Mar, 2023

对话系统中面向领域通用口语断续检测的多任务学习

本文提出一种多任务基于 LSTM 的模型，用于增量检测口吃结构，可以连接到任何组件以进行增量解释，或者在产生当前话语时用于 “清理” 当前话语。我们在 Switchboard 对话行为语料库上训练了该系统，并展示了其在该数据集上的准确性。我们的模型在 SWDA 上比以前的神经网络基于增量的方法表现优异，同时采用较简单的架构。为了测试模型的泛化潜力，我们在没有任何附加训练的情况下，在 bAbI + 数据集上评估了相同的模型。这表明我们的方法具有很好的泛化潜力，并更加详细地阐明了哪些类型的口吃可能适合于领域通用处理。

Oct, 2018