大规模数据集上的 SpecAugment

Dec, 2019

SpecAugment on Large Scale Datasets

Daniel S. Park, Yu Zhang, Chung-Cheng Chiu, Youzheng Chen, Bo Li...

TL;DR本文介绍了一种基于 SpecAugment 的自适应掩蔽方法，该方法可以直接作用于语音识别中输入语音信号的高频图谱上，并证明了该方法在大规模数据集上的有效性，通过将增强数据与噪声扰动训练的数据混合使用，使得模型在所有测试领域中都取得了进一步的提升。

Abstract

Recently, specaugment, an augmentation scheme for automatic speech recognition that acts directly on the spectrogram of input utterances, has shown to be highly effective in enhancing the performance of end-to-end networks on public datasets. In this paper, we demonstrate its effective

specaugment automatic speech recognition end-to-end networks google multidomain dataset adaptive masking

发现论文，激发创造

SpecAugment：一种简单的自动语音识别数据增强方法

通过在神经网络的特征输入（即滤波器组系数）中直接应用声音数据扩充方法 SpecAugment - 扭曲特征，掩盖一定数量的频道块以及时间步长，我们在端到端的语音识别任务上实现了最先进的性能，超过了所有以前的工作。

Apr, 2019

使用 SpecAugment 进行端到端语音翻译

本研究探讨了一种简单的数据增强技术 SpecAugment，用于端到端的语音翻译，通过遮蔽频道块和 / 或时间步骤，减轻过拟合，对 LibriSpeech Audiobooks En->Fr 数据集 BLEU 提高了 2.2％，对 IWSLT TED-talks En-> 通用德语数据集提高了 1.2％，并证明这一方法在各种数据条件下都能带来显著的改进。

Nov, 2019

SpecMix : 一种混合样本数据增强方法用于基于时频域特征的训练

本文提出了一种混合样本数据增强策略 Specmix，可以提高模型在音频场景分类、声音事件分类和语音增强任务中的性能。通过应用时间频率掩码来混合两个不同的数据样本，有效地保留音频数据中的频谱相关性，实验表明，该方法可以最大程度地提高各种神经网络架构的性能，提高了 2.7%。

Aug, 2021

RepAugment：面向输入的表示层数据增强用于呼吸音分类

探索预训练语音模型在呼吸音分类中的有效性，并提出了能够处理预训练语音波形的输入不可知表示级别增广技术。实验结果表明，该方法优于 SpecAugment，在少数疾病类别的准确性上实现了显著改善，最高达到 7.14%。

May, 2024

MixSpeech: 低资源语音识别数据增强

本文提出了 MixSpeech，一种基于混合学习的自动语音识别数据增强方法，通过该方法可以有效地提高模型性能，实验结果表明该方法优于基准模型和其他流行的数据增强方法。

Feb, 2021

使用 S3PRL 工具包进行语音数据增强方法比较

本文使用 S3PRL toolkit 比较不同的数据增强策略，包括 SpecAugment，Gaussian Noise 和 Speed Perturbation，探讨了 HuBERT 和 wav2vec 在 Phoneme Recognition 和 Automatic Speech Recognition 任务中的表现，结果表明使用数据增强可以提高模型的鲁棒性。

Feb, 2023

TED-LIUM 发布 2 的 RWTH ASR 系统：用 SpecAugment 改进混合 HMM

本文提出了一种完整的训练流程，基于 TED-LIUM2 语料库构建了一个最先进的混合 HMM ASR 系统。其中使用 SpecAugment 进行数据增强和 i-vectors 来提高性能，并通过掩模效应的研究，取得了在不增加模型大小和训练时间的情况下，提高混合 HMM 模型的效果。最终采用 sMBR 来微调声学模型，并进行了 LSTM 和 Transformer 语言模型的训练和评估。本系统在测试集上取得了 5.6% 的词错误率，相对于之前的最先进模型提高了 27%。

Apr, 2020

SkinAugment: 自动编码说话人转换用于自动语音翻译

本论文提出了使用自动编码说话人转换进行数据增强的方法，通过直接转换音频序列，使其合成声音与另一位说话人类似。我们的方法在英语到法语和英语到罗马尼亚语的自动语音翻译任务上比 SpecAugment 效果更好。同时，我们还展示了数据增强的数量和多样性的好处，并证明了我们可以将该方法与机器翻译的转录结合起来，在英语到法语自动语音翻译任务上胜过一个非常强大的级联模型。该方法具有广泛适用性，可应用于其他语音生成和分析任务。

Feb, 2020

基于分段增强的语音翻译数据效用最大化（SegAugment）

提出了一种名为 SegAugment 的数据增强方法，通过音频分割系统重新分割每个文档的语音，以获取多个目标文本，并得到多个和不同的句子级视图，实现了语音翻译中的数据增强，平均 BLEU 分数增加了 2.2 个点，并且在低资源场景下增加了 4.7 个 BLEU 点。

Dec, 2022

FilterAugment: 一种声学环境数据增强方法

提出了一种名为 FilterAugment 的数据增强方法，用于在不同声学环境下正则化音频模型。通过在频率带上应用不同的权重，这种方法可以模拟声学滤波器，从而使模型能够从更广泛的频率区域提取相关信息。实验证明，与频率屏蔽相比，FilterAugment 在声音事件检测性能方面的提升为 6.50％，在说话人验证方面取得了 1.22％的等误率。

Oct, 2021