大规模数据集上的 SpecAugment
通过在神经网络的特征输入(即滤波器组系数)中直接应用声音数据扩充方法 SpecAugment - 扭曲特征,掩盖一定数量的频道块以及时间步长,我们在端到端的语音识别任务上实现了最先进的性能,超过了所有以前的工作。
Apr, 2019
本研究探讨了一种简单的数据增强技术 SpecAugment,用于端到端的语音翻译,通过遮蔽频道块和 / 或时间步骤,减轻过拟合,对 LibriSpeech Audiobooks En->Fr 数据集 BLEU 提高了 2.2%,对 IWSLT TED-talks En-> 通用德语数据集提高了 1.2%,并证明这一方法在各种数据条件下都能带来显著的改进。
Nov, 2019
本文提出了一种混合样本数据增强策略 Specmix,可以提高模型在音频场景分类、声音事件分类和语音增强任务中的性能。通过应用时间频率掩码来混合两个不同的数据样本,有效地保留音频数据中的频谱相关性,实验表明,该方法可以最大程度地提高各种神经网络架构的性能,提高了 2.7%。
Aug, 2021
探索预训练语音模型在呼吸音分类中的有效性,并提出了能够处理预训练语音波形的输入不可知表示级别增广技术。实验结果表明,该方法优于 SpecAugment,在少数疾病类别的准确性上实现了显著改善,最高达到 7.14%。
May, 2024
本文提出了 MixSpeech,一种基于混合学习的自动语音识别数据增强方法,通过该方法可以有效地提高模型性能,实验结果表明该方法优于基准模型和其他流行的数据增强方法。
Feb, 2021
本文使用 S3PRL toolkit 比较不同的数据增强策略,包括 SpecAugment,Gaussian Noise 和 Speed Perturbation,探讨了 HuBERT 和 wav2vec 在 Phoneme Recognition 和 Automatic Speech Recognition 任务中的表现,结果表明使用数据增强可以提高模型的鲁棒性。
Feb, 2023
本文提出了一种完整的训练流程,基于 TED-LIUM2 语料库构建了一个最先进的混合 HMM ASR 系统。其中使用 SpecAugment 进行数据增强和 i-vectors 来提高性能,并通过掩模效应的研究,取得了在不增加模型大小和训练时间的情况下,提高混合 HMM 模型的效果。最终采用 sMBR 来微调声学模型,并进行了 LSTM 和 Transformer 语言模型的训练和评估。本系统在测试集上取得了 5.6% 的词错误率,相对于之前的最先进模型提高了 27%。
Apr, 2020
本论文提出了使用自动编码说话人转换进行数据增强的方法,通过直接转换音频序列,使其合成声音与另一位说话人类似。我们的方法在英语到法语和英语到罗马尼亚语的自动语音翻译任务上比 SpecAugment 效果更好。同时,我们还展示了数据增强的数量和多样性的好处,并证明了我们可以将该方法与机器翻译的转录结合起来,在英语到法语自动语音翻译任务上胜过一个非常强大的级联模型。该方法具有广泛适用性,可应用于其他语音生成和分析任务。
Feb, 2020
提出了一种名为 SegAugment 的数据增强方法,通过音频分割系统重新分割每个文档的语音,以获取多个目标文本,并得到多个和不同的句子级视图,实现了语音翻译中的数据增强,平均 BLEU 分数增加了 2.2 个点,并且在低资源场景下增加了 4.7 个 BLEU 点。
Dec, 2022
提出了一种名为 FilterAugment 的数据增强方法,用于在不同声学环境下正则化音频模型。通过在频率带上应用不同的权重,这种方法可以模拟声学滤波器,从而使模型能够从更广泛的频率区域提取相关信息。实验证明,与频率屏蔽相比,FilterAugment 在声音事件检测性能方面的提升为 6.50%,在说话人验证方面取得了 1.22%的等误率。
Oct, 2021