探究无序语音识别数据增强技术

Jan, 2022

Investigation of Data Augmentation Techniques for Disordered Speech Recognition

Mengzhe Geng, Xurong Xie, Shansong Liu, Jianwei Yu, Shoukang Hu...

TL;DR本文研究了一组用于混乱语音识别的数据增强技术，包括声道长度扰动（VTLP）、节奏扰动和速度扰动，并利用正常和混乱语音进行增强处理。通过基于学习隐藏单元贡献（LHUC）的说话者自适应训练对原始和增强数据中的受损说话者之间的变异性进行建模。使用基于速度扰动的最佳增强方法构建的最终说话者自适应系统相对于没有数据增强的基线系统减少了 2.92％绝对（9.3％相对）的词错误率（WER），并在包含 16 位 Dysarthria 患者的测试集上获得了 26.37％的整体 WER。

Abstract

disordered speech recognition is a highly challenging task. The underlying neuro-motor conditions of people with speech disorders, often compounded with co-occurring physical disabilities, lead to the difficulty

disordered speech recognition data augmentation speech disorders vtlp speaker adaptive training

发现论文，激发创造

面向发音障碍和老年人的个性化对抗性数据增强语音识别

本文提出使用基于 GAN 的数据增强方法，通过分析非标准语音（如老年人和 dysarthric 患者的语音）的光谱和时间差异可模拟增强数据，提高了 UASpeech、TORGO、Pitt 和 JCCOCC MoCA 等数据集上 TDNN 和 Conformer ASR 系统的训练精度，相对于基于速度的数据增强方法，可使 TORGO 和 DementiaBank 数据集的 WER 分别提高 9.61％和 6.4％。

May, 2022

混乱语音评估和识别的光谱 - 时间深度特征

本文研究基于 SVD 分解的深度学习算法，用于自动识别语音障碍人士的语音，并且使用该算法提高了基于语音识别的自适应技术在该领域中的性能。

Jan, 2022

PhasePerturbation: 语音数据增强通过相位扰动的自动语音识别

本文提出了一种名为 PhasePerturbation 的新型语音数据增强方法，利用动态的语音相位谱操作，通过随机化、频率遮蔽和时间遮蔽来增加语音数据的多样性。在 wav2vec2.0 预训练的 ASR 模型上，通过将模型与经过 PhasePerturbation 增强的 TIMIT 语料进行微调，实验证明相比没有增强操作的基准模型，词错误率（WER）相对降低了 10.9％。此外，通过结合基于振幅谱的增强方法 Vocal Tract Length Perturbation（VTLP）和 SpecAug，所提出的方法在 WER 上进一步提升了 12.9％和 15.9％，凸显了 PhasePerturbation 改进当前基于振幅谱的增强方法的能力。

Dec, 2023

香港中文大学口吃言语识别系统的最新进展

本文介绍了中国香港中文大学对自动语音识别技术中有关于不正常发音语音的识别问题展开的最新研究成果，利用了新型建模技术和 Bayesian model adaptation 等方法，最终取得了乌阿里语（UASpeech）失语症语音库上最低的 25.21% 字误率（WER），并在多方面相对于 2018 年的同类系统均有较大提升

Jan, 2022

语音识别系统的通用对抗扰动

本文揭示了全局对抗音频扰动的存在，该扰动通过对自动语音识别系统的信号进行误转录。我们提出了一种算法来查找单个几乎不可感知的扰动，将其添加到任意语音信号中，很可能欺骗受害的语音识别模型。我们的实验表明，我们提出的技术可以将视觉安全的通用扰动用于最新的自动语音识别系统 - Mozilla DeepSpeech。此外，我们还通过在 WaveNet 基于的 ASR 系统上进行可迁移性测试，表明了这种扰动在未参与训练的模型上有相当广泛的应用。

May, 2019

为 ASR 数据增强精确合成口吃病患者语音

该研究提出了一种新的口吃性语音合成方法，用于自动语音识别 (ASR) 训练数据的增强，并通过主观评估证明了合成语音与真实口吃性语音在口吃感和相似性方面的相似性，特别是对于严重口吃者。

Aug, 2023

面向非流畅语音的包容性自动语音识别：级联大规模自监督学习与目标微调和数据增强

自动语音识别系统通常在处理口吃相关的流畅性障碍时出现故障，而这些故障包括意愿性中断和单词重复，从而导致不准确的转录。我们提出了一种包容性的 ASR 设计方法，利用标准语音的大规模自我监督学习，然后通过对较小的策划语音数据集进行有针对性的微调和数据增强来解决此问题。我们的数据增强技术可以通过增加各种不流畅性来丰富训练数据集，增强对这些语音模式的 ASR 处理。结果表明，即使是对于一个相对较小的标记数据集，结合数据增强，通过微调 wav2vec 2.0 也可以显著降低不流畅语音的单词错误率。我们的方法不仅推动了面向口吃者的 ASR 包容性，而且为能够适应更广泛的语音变化的 ASR 铺平了道路。

Jun, 2024

利用数据增强和 VTLN 减少荷兰语端到端语音识别系统中的偏差

本研究采用速度扰动及谱增强的数据增强技术和 Vocal Tract Length Normalization 技术用于 end-to-end ASR 系统，旨在减少针对不同年龄组和非母语的荷兰语说话者的偏见，减少了平均 WER 和不同的说话人群之间的差异，同时该模型还适用于普通话儿童语音。

Jul, 2023

使用 S3PRL 工具包进行语音数据增强方法比较

本文使用 S3PRL toolkit 比较不同的数据增强策略，包括 SpecAugment，Gaussian Noise 和 Speed Perturbation，探讨了 HuBERT 和 wav2vec 在 Phoneme Recognition 和 Automatic Speech Recognition 任务中的表现，结果表明使用数据增强可以提高模型的鲁棒性。

Feb, 2023

Perceiver-Prompt: 強調可變的語者適應，用於中文失調語音識別

通过引入 Perceiver-Prompt 方法，利用 P-Tuning 对 Whisper 大规模模型进行微调，并通过可训练的 Perceiver 从可变长度输入中生成固定长度的说话人提示，以提高对中国发音障碍语音的模型识别性能。我们的实验结果表明，Perceiver-Prompt 在中国发音障碍语音数据集中获得了持续的识别性能改善，CER 相对减少高达 13.04%。

Jun, 2024