使用 SpecAugment 进行端到端语音翻译

Nov, 2019

使用 SpecAugment 进行端到端语音翻译

On Using SpecAugment for End-to-End Speech Translation

Parnia Bahar, Albert Zeyer, Ralf Schlüter, Hermann Ney

TL;DR本研究探讨了一种简单的数据增强技术 SpecAugment，用于端到端的语音翻译，通过遮蔽频道块和 / 或时间步骤，减轻过拟合，对 LibriSpeech Audiobooks En->Fr 数据集 BLEU 提高了 2.2％，对 IWSLT TED-talks En-> 通用德语数据集提高了 1.2％，并证明这一方法在各种数据条件下都能带来显著的改进。

Abstract

This work investigates a simple data augmentation technique, specaugment, for end-to-end speech translation. →

data augmentation specaugment end-to-end speech translation overfitting training data

发现论文，激发创造

SpecAugment：一种简单的自动语音识别数据增强方法

通过在神经网络的特征输入（即滤波器组系数）中直接应用声音数据扩充方法 SpecAugment - 扭曲特征，掩盖一定数量的频道块以及时间步长，我们在端到端的语音识别任务上实现了最先进的性能，超过了所有以前的工作。

Apr, 2019

大规模数据集上的 SpecAugment

本文介绍了一种基于 SpecAugment 的自适应掩蔽方法，该方法可以直接作用于语音识别中输入语音信号的高频图谱上，并证明了该方法在大规模数据集上的有效性，通过将增强数据与噪声扰动训练的数据混合使用，使得模型在所有测试领域中都取得了进一步的提升。

Dec, 2019

SkinAugment: 自动编码说话人转换用于自动语音翻译

本论文提出了使用自动编码说话人转换进行数据增强的方法，通过直接转换音频序列，使其合成声音与另一位说话人类似。我们的方法在英语到法语和英语到罗马尼亚语的自动语音翻译任务上比 SpecAugment 效果更好。同时，我们还展示了数据增强的数量和多样性的好处，并证明了我们可以将该方法与机器翻译的转录结合起来，在英语到法语自动语音翻译任务上胜过一个非常强大的级联模型。该方法具有广泛适用性，可应用于其他语音生成和分析任务。

Feb, 2020

基于分段增强的语音翻译数据效用最大化（SegAugment）

提出了一种名为 SegAugment 的数据增强方法，通过音频分割系统重新分割每个文档的语音，以获取多个目标文本，并得到多个和不同的句子级视图，实现了语音翻译中的数据增强，平均 BLEU 分数增加了 2.2 个点，并且在低资源场景下增加了 4.7 个 BLEU 点。

Dec, 2022

采样、翻译、重组：利用音频对齐进行数据增广的端到端语音翻译

本文提出了一种基于声音对齐、语言属性和翻译的数据增强方法，通过从后缀内存中的文本和音频数据中进行采样，翻译增强后的转录结果，最后重新组合连接的音频段和生成的翻译，不仅训练了机器翻译系统，还使用了基本的现成组件，其资源需求与知识蒸馏相似，但对于五种语言对和两种欧洲议会会议语言对的 CoVoST 2 和 Europarl-ST，在 BLEU 分数上能够持续提高至多 0.9 和 1.1 个点。

Mar, 2022

MixSpeech: 低资源语音识别数据增强

本文提出了 MixSpeech，一种基于混合学习的自动语音识别数据增强方法，通过该方法可以有效地提高模型性能，实验结果表明该方法优于基准模型和其他流行的数据增强方法。

Feb, 2021

最小化工作量数据增广方法用于自动语音识别和翻译

研究数据扩增技术，通过将原始数据例子进行连接来建立新的训练实例，以改善用于原始数据优化的 Transformer 和 Conformer 模型，增加了对另外四种非英语语言识别方面的准确性。并证明其也适用于语音翻译任务。

Oct, 2022

端到端混合语音识别的数据增强

本文提出了三种针对语种转换数据的增强方法，即音频接合、TTS 和单词转换或插入生成语料，并展示了这些方法对基于端到端自动语音识别系统（ASR）的语种转换系统的性能提升，这些方法可结合近期热门技术 SpecAugment 使用，相对于没有数据增强的系统，WER 显著降低了 24.0％，相对于只有 SpecAugment 的系统还有 13.0％的收益。

Nov, 2020

低资源表达文本朗读的分布增强

本文介绍了一种新的数据增强技术，用于文本到语音的任务，能够生成新的（文本，音频）训练样本，而无需额外的数据。该方法可增加训练期间可用的文本条件的多样性，有助于减少过拟合，特别是在低资源环境下。我们将文本和音频段进行替换以确保语法正确性，并采取额外措施确保合成的语音不含有由于组合不一致的音频样本而导致的伪影。感知评估结果表明，我们的方法改善了许多数据集、说话人和 TTS 体系结构的语音质量，并能大大提高基于注意力的 TTS 模型的鲁棒性。

Feb, 2022

TED-LIUM 发布 2 的 RWTH ASR 系统：用 SpecAugment 改进混合 HMM

本文提出了一种完整的训练流程，基于 TED-LIUM2 语料库构建了一个最先进的混合 HMM ASR 系统。其中使用 SpecAugment 进行数据增强和 i-vectors 来提高性能，并通过掩模效应的研究，取得了在不增加模型大小和训练时间的情况下，提高混合 HMM 模型的效果。最终采用 sMBR 来微调声学模型，并进行了 LSTM 和 Transformer 语言模型的训练和评估。本系统在测试集上取得了 5.6% 的词错误率，相对于之前的最先进模型提高了 27%。

Apr, 2020