选择性数据增强对于强健的语音翻译的影响

Mar, 2023

选择性数据增强对于强健的语音翻译的影响

Selective Data Augmentation for Robust Speech Translation

Rajul Acharya, Ashish Panda, Sunil Kumar Kopparapu

TL;DR该论文介绍了使用端到端系统和噪声机器翻译数据增强策略来改进语音翻译，提高 BLEU 分数，该方法应用于英语 - 印地语语音翻译。

Abstract

speech translation (ST) systems translate speech in one language to text in another language. End-to-end ST systems (e2e-ST) have gained popularity over cascade systems because of their enhanced performance due to reduced latency and computational cost. Though resource intensive, e2e-S

speech translation end-to-end systems english-hindi machine translation data augmentation

发现论文，激发创造

利用弱监督数据提高端到端的语音到文本翻译

本文探讨了使用预训练的机器翻译或文本到语音合成模型将弱监督数据转化为语音到翻译对对于 ST 的训练比多任务学习效果更好的问题，展示了只使用弱监督数据即可以获得高质量的终到端 ST 模型，并讨论了避免模型对合成的语音过度拟合的方法。

Nov, 2018

多语言端到端语音翻译

本文提出了一种简单且有效的多语言端到端语音翻译框架，并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。

Oct, 2019

从零开始重新审视端到端的语音到文本翻译

本文通过重新审视机器翻译中的 ST 和文本翻译任务技术，提出了一套训练 E2E ST 系统的最佳实践，其中包括参数化距离惩罚、模拟本地化技术等。实验表明，在不使用转录文本和预训练的情况下，该系统可以达到并甚至超过之前使用预训练方法的研究水平，对于极低资源环境依然有差距。此外，我们还首次证明了神经声学特征建模的可行性，并在 ST 任务中取得了令人鼓舞的效果。

Jun, 2022

零 - shot 多语言机器翻译技术应对语音翻译中的数据稀缺

研究了利用多语言文本翻译中零样本翻译技术在语音翻译中的应用，成功地应用数据增强和辅助损失函数技术提升了有限语音翻译数据的效率和准确率。

Jan, 2022

无参数领域自适应端到端语音翻译

本文提出了一种基于领域特定文本翻译语料库的非参数方法，用于增强 E2E-ST 系统在领域自适应中的效果，实验结果表明，相比于强烈的领域内微调方法，该方法在所有翻译方向上的平均基线 BLEU 值提高了 12.82 BLEU，甚至超过了强大的领域内微调方法。

May, 2022

基于形式不可知元学习的数据高效直接语音翻译

本文提出了一种基于元学习算法采用模态不可知的多任务模型，将源任务 ASR + MT 的知识转移到目标任务 ST 中，以应对 ST 任务短缺数据的问题，该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。

Nov, 2019

无需文本的语音转文本反向翻译

采用自监督离散单元并将目标语言数据转化为人工翻译的语言模拟数据的 back translation for speech-to-text translation（BT4ST）方法，可有效解决资源不足情境下进行端到端语音转文本翻译的问题。

May, 2023

端到端语音到文本翻译：综述

语音到文本翻译中的端到端模型的综述，包括模型、评估指标和数据集，提供了挑战和未来研究方向的新见解。

Dec, 2023

知识蒸馏技术下的端到端语音翻译

本文提出了一种基于知识蒸馏的方法来提高端到端语音翻译 (ST) 模型的性能，通过从文本翻译模型中转移知识来训练 ST 模型。在英法增广 LibriSpeech 和英汉 TED 语料库上的实验结果表明，使用该方法可以对相似和不相似的语言对进行端到端 ST 实现，并且在老师模型的指导下，端到端 ST 模型可以取得 3.5 个 BLEU 分数的显着提升。

Apr, 2019

利用无监督和弱监督数据，提高直接语音翻译的准确性

本文旨在通过多种方法利用无监督和弱监督的语音和文本数据来提高基于 Translatotron 2 的直接语音到语音翻译系统的性能，实现在 21 种语言对上 BLEU 值提高 13.6（相对增长 113%），特别是对于低资源语言的提高更为显著（相对增长 398%）

Mar, 2022