众包数据中噪音对语音翻译的影响

Jun, 2022

众包数据中噪音对语音翻译的影响

On the Impact of Noises in Crowd-Sourced Data for Speech Translation

Siqi Ouyang, Rong Ye, Lei Li

TL;DR本研究提出了一种自动的解决 MuST-C 语音翻译数据集中存在的质量问题的方法，使得标准测试集合的质量得到提高，模型发展的结果也得到了一致的认可。

Abstract

Training speech translation (ST) models requires large and high-quality datasets. must-c is one of the most widely used ST benchmark datasets. It contains around 400 hours of speech-transcript-translation data fo

speech translation dataset quality issues must-c model development test sets

发现论文，激发创造

基于形式不可知元学习的数据高效直接语音翻译

本文提出了一种基于元学习算法采用模态不可知的多任务模型，将源任务 ASR + MT 的知识转移到目标任务 ST 中，以应对 ST 任务短缺数据的问题，该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。

Nov, 2019

重思和改进端到端语音翻译的多任务学习

通过应用多任务学习，已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性，并提出了一种改进的多任务学习方法，通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外，当使用额外的数据时，我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。

Nov, 2023

M3ST: 三级混合语音翻译

本文提出了一种基于数据扩充的语音翻译方法 M^3ST，通过在词级、句子级和帧级混合训练数据和使用外部机器翻译数据进行模型预训练和微调，再通过并行输入原始语音序列和原始文本序列进行模型微调，使用 Jensen-Shannon 散度对输出进行正则化，成功在 MuST-C 语音翻译基准上取得了优异的表现，平均 BLEU 得分达到 29.9，超越了当前强基线和取得了最新的最好成果。

Dec, 2022

性别危险？在 MuST-SHE 语料库上评估语音翻译技术

研究了语音翻译中存在的性别偏见问题，并基于英意 / 英法语言方向比较了级联与端到端技术，着重于探究如何利用音频信息来解决自然语言中的性别偏见问题。

Jun, 2020

选择性数据增强对于强健的语音翻译的影响

该论文介绍了使用端到端系统和噪声机器翻译数据增强策略来改进语音翻译，提高 BLEU 分数，该方法应用于英语 - 印地语语音翻译。

Mar, 2023

GigaST：一份拥有 10,000 小时的伪语音翻译语料库

本文介绍 GigaST 数据集，它是一个大规模的伪语音转换语料库，通过翻译英文 ASR 语料库 GigaSpeech 到德语和中文等加入大量的机器翻译的数据用于训练，最终的 ST 模型在 MuST-C 英语 - 德语基准测试集中获得了最新的最好成果。

Apr, 2022

利用弱监督数据提高端到端的语音到文本翻译

本文探讨了使用预训练的机器翻译或文本到语音合成模型将弱监督数据转化为语音到翻译对对于 ST 的训练比多任务学习效果更好的问题，展示了只使用弱监督数据即可以获得高质量的终到端 ST 模型，并讨论了避免模型对合成的语音过度拟合的方法。

Nov, 2018

关于端到端语音翻译过滤的案例研究

通过使用最简单的筛选技术可以从大量的嘈杂数据集中减少数据量，得到一组更易管理和干净的数据集，并且在多语言到英语语音翻译模型中使用这样的清洁数据集可以显著提高模型性能，平均提升 4.65 个 BLEU 得分。

Feb, 2024

零 - shot 多语言机器翻译技术应对语音翻译中的数据稀缺

研究了利用多语言文本翻译中零样本翻译技术在语音翻译中的应用，成功地应用数据增强和辅助损失函数技术提升了有限语音翻译数据的效率和准确率。

Jan, 2022

利用多组噪声扩充数据进行跨语言口语理解的学习

本文提出了一种通过机器学习方法处理低资源语言中语音理解数据的方法，通过多个模型同时对不同扩充的训练数据对彼此提供监督信号，实现了对数据的去噪处理，在两个基准数据集上的实验结果表明，我们的方法优于现有技术达 3.05% 和 4.24% 的性能表现。

Sep, 2021