M3ST: 三级混合语音翻译

Dec, 2022

M3ST: Mix at Three Levels for Speech Translation

Xuxin Cheng, Qianqian Dong, Fengpeng Yue, Tom Ko, Mingxuan Wang...

TL;DR本文提出了一种基于数据扩充的语音翻译方法 M^3ST，通过在词级、句子级和帧级混合训练数据和使用外部机器翻译数据进行模型预训练和微调，再通过并行输入原始语音序列和原始文本序列进行模型微调，使用 Jensen-Shannon 散度对输出进行正则化，成功在 MuST-C 语音翻译基准上取得了优异的表现，平均 BLEU 得分达到 29.9，超越了当前强基线和取得了最新的最好成果。

Abstract

How to solve the data scarcity problem for end-to-end speech-to-text translation (ST)? It's well known that data augmentation is an effici

end-to-end speech-to-text data augmentation fine-tuning jensen-shannon divergence

发现论文，激发创造

M3T: 多模文档级机器翻译的新基准数据集

本文介绍了 M3T，这是一个新颖的基准数据集，旨在评估 NMT 系统在翻译半结构化文档的全面任务上的表现，并解决了现实世界应用中丰富文本布局所带来的挑战。

Jun, 2024

融合语音和文本改进语音翻译

该研究提出了 FST 跨模态模型，支持语音、文本和语音文本融合三种不同类型的输入模态进行翻译，技术包括多模态对齐等方法，实验结果表明该模型在多项测试中比传统方法有显著提升，尤其是在语音翻译领域。

May, 2023

重思和改进端到端语音翻译的多任务学习

通过应用多任务学习，已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性，并提出了一种改进的多任务学习方法，通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外，当使用额外的数据时，我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。

Nov, 2023

基于形式不可知元学习的数据高效直接语音翻译

本文提出了一种基于元学习算法采用模态不可知的多任务模型，将源任务 ASR + MT 的知识转移到目标任务 ST 中，以应对 ST 任务短缺数据的问题，该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。

Nov, 2019

选择性数据增强对于强健的语音翻译的影响

该论文介绍了使用端到端系统和噪声机器翻译数据增强策略来改进语音翻译，提高 BLEU 分数，该方法应用于英语 - 印地语语音翻译。

Mar, 2023

零 - shot 多语言机器翻译技术应对语音翻译中的数据稀缺

研究了利用多语言文本翻译中零样本翻译技术在语音翻译中的应用，成功地应用数据增强和辅助损失函数技术提升了有限语音翻译数据的效率和准确率。

Jan, 2022

超越三元组：利用最多数据进行多模态机器翻译

通过提出一个新的方法和新的数据集，本文致力于提高多模式机器翻译的翻译质量并解决了只能利用少量数据和当前的基准相对较为受限约束的问题，结果表明我们的方法更适合实际场景并显著提高了翻译性能。

Dec, 2022

利用弱监督数据提高端到端的语音到文本翻译

本文探讨了使用预训练的机器翻译或文本到语音合成模型将弱监督数据转化为语音到翻译对对于 ST 的训练比多任务学习效果更好的问题，展示了只使用弱监督数据即可以获得高质量的终到端 ST 模型，并讨论了避免模型对合成的语音过度拟合的方法。

Nov, 2018

众包数据中噪音对语音翻译的影响

本研究提出了一种自动的解决 MuST-C 语音翻译数据集中存在的质量问题的方法，使得标准测试集合的质量得到提高，模型发展的结果也得到了一致的认可。

Jun, 2022

STEMM：基于语音文本流形混合的自学习语音翻译

本研究提出了一种名为 STEMM 的方法来解决语音 - 文本翻译时，因跨模态表示不匹配导致数据标注不足的问题。该方法通过混合不同模态的表示序列，利用自学习框架来规范预测输出，能够有效地减轻跨模态表示不匹配并在 8 个翻译方向上达到了显著提高。

Mar, 2022