使用 S3PRL 工具包进行语音数据增强方法比较

Feb, 2023

使用 S3PRL 工具包进行语音数据增强方法比较

A Comparison of Speech Data Augmentation Methods Using S3PRL Toolkit

Mina Huh, Ruchira Ray, Corey Karnei

TL;DR本文使用 S3PRL toolkit 比较不同的数据增强策略，包括 SpecAugment，Gaussian Noise 和 Speed Perturbation，探讨了 HuBERT 和 wav2vec 在 Phoneme Recognition 和 Automatic Speech Recognition 任务中的表现，结果表明使用数据增强可以提高模型的鲁棒性。

Abstract

Data augmentations are known to improve robustness in speech-processing tasks. In this study, we summarize and compare different data augmentation strategies using →

data augmentation s3prl toolkit phoneme recognition automatic speech recognition robustness

发现论文，激发创造

PhasePerturbation: 语音数据增强通过相位扰动的自动语音识别

本文提出了一种名为 PhasePerturbation 的新型语音数据增强方法，利用动态的语音相位谱操作，通过随机化、频率遮蔽和时间遮蔽来增加语音数据的多样性。在 wav2vec2.0 预训练的 ASR 模型上，通过将模型与经过 PhasePerturbation 增强的 TIMIT 语料进行微调，实验证明相比没有增强操作的基准模型，词错误率（WER）相对降低了 10.9％。此外，通过结合基于振幅谱的增强方法 Vocal Tract Length Perturbation（VTLP）和 SpecAug，所提出的方法在 WER 上进一步提升了 12.9％和 15.9％，凸显了 PhasePerturbation 改进当前基于振幅谱的增强方法的能力。

Dec, 2023

SpecAugment：一种简单的自动语音识别数据增强方法

通过在神经网络的特征输入（即滤波器组系数）中直接应用声音数据扩充方法 SpecAugment - 扭曲特征，掩盖一定数量的频道块以及时间步长，我们在端到端的语音识别任务上实现了最先进的性能，超过了所有以前的工作。

Apr, 2019

减少、重用、循环利用：扰动数据是否比其他语言增强对于低资源自我监督语音模型更好

利用音频增强方法预训练自监督表示学习（SSRL）模型，相比监督模型，在低资源语言中改善了下游音素识别性能。研究比较了不同的增强技术，包括音高变化、噪音添加、目标语言口音和其他语言语音，并发现了综合增强（噪音 / 音高）是最佳的增强策略，超过了口音和语言知识迁移。研究结果表明，在资源有限的语言中，领域内的合成增强可以优于口音或其他语言的知识迁移。

Sep, 2023

大规模数据集上的 SpecAugment

本文介绍了一种基于 SpecAugment 的自适应掩蔽方法，该方法可以直接作用于语音识别中输入语音信号的高频图谱上，并证明了该方法在大规模数据集上的有效性，通过将增强数据与噪声扰动训练的数据混合使用，使得模型在所有测试领域中都取得了进一步的提升。

Dec, 2019

探究无序语音识别数据增强技术

本文研究了一组用于混乱语音识别的数据增强技术，包括声道长度扰动（VTLP）、节奏扰动和速度扰动，并利用正常和混乱语音进行增强处理。通过基于学习隐藏单元贡献（LHUC）的说话者自适应训练对原始和增强数据中的受损说话者之间的变异性进行建模。使用基于速度扰动的最佳增强方法构建的最终说话者自适应系统相对于没有数据增强的基线系统减少了 2.92％绝对（9.3％相对）的词错误率（WER），并在包含 16 位 Dysarthria 患者的测试集上获得了 26.37％的整体 WER。

Jan, 2022

MixSpeech: 低资源语音识别数据增强

本文提出了 MixSpeech，一种基于混合学习的自动语音识别数据增强方法，通过该方法可以有效地提高模型性能，实验结果表明该方法优于基准模型和其他流行的数据增强方法。

Feb, 2021

使用 SpecAugment 进行端到端语音翻译

本研究探讨了一种简单的数据增强技术 SpecAugment，用于端到端的语音翻译，通过遮蔽频道块和 / 或时间步骤，减轻过拟合，对 LibriSpeech Audiobooks En->Fr 数据集 BLEU 提高了 2.2％，对 IWSLT TED-talks En-> 通用德语数据集提高了 1.2％，并证明这一方法在各种数据条件下都能带来显著的改进。

Nov, 2019

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和 TTS 技术，对 ASR 的训练数据进行扩充，并通过集成语言模型，在 LibriSpeech 数据上建立 end-to-end 模型，相对于半监督技术的效果更好。

May, 2020

TED-LIUM 发布 2 的 RWTH ASR 系统：用 SpecAugment 改进混合 HMM

本文提出了一种完整的训练流程，基于 TED-LIUM2 语料库构建了一个最先进的混合 HMM ASR 系统。其中使用 SpecAugment 进行数据增强和 i-vectors 来提高性能，并通过掩模效应的研究，取得了在不增加模型大小和训练时间的情况下，提高混合 HMM 模型的效果。最终采用 sMBR 来微调声学模型，并进行了 LSTM 和 Transformer 语言模型的训练和评估。本系统在测试集上取得了 5.6% 的词错误率，相对于之前的最先进模型提高了 27%。

Apr, 2020

训练对话模型以更好地处理语音识别错误的数据增强

本文探讨了通过数据增强的方法，将 ASR 的噪声注入到对话模型的训练数据中，以提高虚拟助手的稳定性。

Jun, 2020