基于分段增强的语音翻译数据效用最大化（SegAugment）

Dec, 2022

基于分段增强的语音翻译数据效用最大化（SegAugment）

SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations

Ioannis Tsiamas, José A. R. Fonollosa, Marta R. Costa-jussà

TL;DR提出了一种名为 SegAugment 的数据增强方法，通过音频分割系统重新分割每个文档的语音，以获取多个目标文本，并得到多个和不同的句子级视图，实现了语音翻译中的数据增强，平均 BLEU 分数增加了 2.2 个点，并且在低资源场景下增加了 4.7 个 BLEU 点。

Abstract

data scarcity is one of the main issues with the end-to-end approach for speech translation, as compared to the cascaded one. Although most data resources for →

speech translation data augmentation audio segmentation data scarcity sentence-level view

发现论文，激发创造

采样、翻译、重组：利用音频对齐进行数据增广的端到端语音翻译

本文提出了一种基于声音对齐、语言属性和翻译的数据增强方法，通过从后缀内存中的文本和音频数据中进行采样，翻译增强后的转录结果，最后重新组合连接的音频段和生成的翻译，不仅训练了机器翻译系统，还使用了基本的现成组件，其资源需求与知识蒸馏相似，但对于五种语言对和两种欧洲议会会议语言对的 CoVoST 2 和 Europarl-ST，在 BLEU 分数上能够持续提高至多 0.9 和 1.1 个点。

Mar, 2022

使用 SpecAugment 进行端到端语音翻译

本研究探讨了一种简单的数据增强技术 SpecAugment，用于端到端的语音翻译，通过遮蔽频道块和 / 或时间步骤，减轻过拟合，对 LibriSpeech Audiobooks En->Fr 数据集 BLEU 提高了 2.2％，对 IWSLT TED-talks En-> 通用德语数据集提高了 1.2％，并证明这一方法在各种数据条件下都能带来显著的改进。

Nov, 2019

面向文档级机器翻译的目标端增强

提出了目标端数据增强的数据稀疏性问题解决方法，通过生成多个潜在翻译来训练机器翻译模型，从而减少数据稀疏性的风险并提高翻译性能。

May, 2023

低资源表达文本朗读的分布增强

本文介绍了一种新的数据增强技术，用于文本到语音的任务，能够生成新的（文本，音频）训练样本，而无需额外的数据。该方法可增加训练期间可用的文本条件的多样性，有助于减少过拟合，特别是在低资源环境下。我们将文本和音频段进行替换以确保语法正确性，并采取额外措施确保合成的语音不含有由于组合不一致的音频样本而导致的伪影。感知评估结果表明，我们的方法改善了许多数据集、说话人和 TTS 体系结构的语音质量，并能大大提高基于注意力的 TTS 模型的鲁棒性。

Feb, 2022

低资源神经机器翻译的数据增强

本研究提出了一种以数据增强为基础的方法，针对低频词汇在合成的新语境中生成新的句子对，以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示，相对于基准和回译方法，我们的方法能够提高翻译质量，最高可提高 2.9 BLEU 分数。

May, 2017

SkinAugment: 自动编码说话人转换用于自动语音翻译

本论文提出了使用自动编码说话人转换进行数据增强的方法，通过直接转换音频序列，使其合成声音与另一位说话人类似。我们的方法在英语到法语和英语到罗马尼亚语的自动语音翻译任务上比 SpecAugment 效果更好。同时，我们还展示了数据增强的数量和多样性的好处，并证明了我们可以将该方法与机器翻译的转录结合起来，在英语到法语自动语音翻译任务上胜过一个非常强大的级联模型。该方法具有广泛适用性，可应用于其他语音生成和分析任务。

Feb, 2020

最小化工作量数据增广方法用于自动语音识别和翻译

研究数据扩增技术，通过将原始数据例子进行连接来建立新的训练实例，以改善用于原始数据优化的 Transformer 和 Conformer 模型，增加了对另外四种非英语语言识别方面的准确性。并证明其也适用于语音翻译任务。

Oct, 2022

低资源语音识别的语音合成数据增强

本研究旨在提出一种新的数据增强方法来改善自动语音识别模型，该方法生成合成文本和合成音频，使用该方法可以提高 Quechua 语言的 ASR 模型的词错误率（WER）达到 8.73％的改善。

Apr, 2022

利用生成式语言模型进行神经机器翻译的数据增强

通过利用大规模语言模型如 ChatGPT，我们探索了基于提示的数据增强方法，用于产生合成的平行语料库，比较了三种不同提示的方法，并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本，与后向翻译等其他增强方法相比，提高了未增强基线的 0.68 BLEU 分数。

Jul, 2023

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和 TTS 技术，对 ASR 的训练数据进行扩充，并通过集成语言模型，在 LibriSpeech 数据上建立 end-to-end 模型，相对于半监督技术的效果更好。

May, 2020