STEMM：基于语音文本流形混合的自学习语音翻译

ACLMar, 2022

STEMM：基于语音文本流形混合的自学习语音翻译

STEMM: Self-learning with Speech-text Manifold Mixup for Speech Translation

Qingkai Fang, Rong Ye, Lei Li, Yang Feng, Mingxuan Wang

TL;DR本研究提出了一种名为 STEMM 的方法来解决语音 - 文本翻译时，因跨模态表示不匹配导致数据标注不足的问题。该方法通过混合不同模态的表示序列，利用自学习框架来规范预测输出，能够有效地减轻跨模态表示不匹配并在 8 个翻译方向上达到了显著提高。

Abstract

How to learn a better speech representation for end-to-end speech-to-text translation (ST) with limited labeled data? Existing techniques often attempt to transfer powerful machine translation (MT) capabilities to ST, but neglect the representation discrepancy across modalities. In this paper, we propose the Speech-TExt Manifold Mixup (STEMM) method to calib

speech-to-text translation representation learning stemm method cross-modal discrepancy self-learning framework

发现论文，激发创造

理解和弥合语音翻译的模态差距

本文研究对于 ST 和 MT 之间的通道差，提出了一种名为 Cress 的跨模态规范化方法。通过输出 ST 和 MT 的预测值，使用采样和不同训练权重来处理难以处理的情况，实现了在 MuST-C 数据集的八个方向上取得了显著效果。

May, 2023

重思和改进端到端语音翻译的多任务学习

通过应用多任务学习，已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性，并提出了一种改进的多任务学习方法，通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外，当使用额外的数据时，我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。

Nov, 2023

基于形式不可知元学习的数据高效直接语音翻译

本文提出了一种基于元学习算法采用模态不可知的多任务模型，将源任务 ASR + MT 的知识转移到目标任务 ST 中，以应对 ST 任务短缺数据的问题，该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。

Nov, 2019

使用流形混合增强跨语言传递

通过跨语言流域混合的 X-Mixup 方法，根据大规模的预训练的多语言表示，以解决不同语言之间表示差异的问题并提高多个文本理解任务的表现

May, 2022

离散跨模态对齐实现零 - shot 语音翻译

该研究提出了一种新的离线语音翻译方法，称为离散跨模态对齐方法（Discrete Cross-Modal Alignment method），该方法能有效地将语音和文字的两种模态映射到共享的语义空间中，从而提高零 - shot 语音翻译的性能。

Oct, 2022

语音到文本转换的共享语义空间学习

该论文提出了一种名为 Chimera 的方法，该方法通过投影音频和文本特征到一个共同的语义表示来统一文本翻译和语音翻译任务，从而提高了 MuST-C 和 Augmented Librispeech 的 ST 基准性能至新的最先进水平。

May, 2021

MixSpeech: 跨模态自学习中的音频 - 视觉流混合应用于视觉语音翻译和识别

本研究通过提出混合语音框架来克服跨语言视觉语音翻译中缺乏的可翻译数据问题，并提出在嘈杂环境下提高语音翻译效果的方法。

Mar, 2023

CMOT: 基于最优传输的跨模态 Mixup 语音翻译

该论文研究了语音翻译的跨模态任务，以及如何通过使用最优传输和跨模态混合等方法，来克服语音和文本之间的模态差异，从而提高翻译的准确性。实验结果表明，该方法比以往方法表现更优秀。

May, 2023

自监督神经机器翻译中的自主课程学习

该研究提供了有关 SSNMT 模型在训练期间进行采样选择的深入分析，证明了该模型能够自我选择越来越复杂和相关任务的样本，并执行去噪曲线，以提高提取和翻译性能。其中，相互监督信号的动态对提取和翻译性能至关重要。研究显示，使用 Gunning-Fog 可读性指数时，SSNMT 从适合高中学生的 Wikipedia 数据开始提取和学习，并迅速转向适合大一学生的内容。

Apr, 2020

利用弱监督数据提高端到端的语音到文本翻译

本文探讨了使用预训练的机器翻译或文本到语音合成模型将弱监督数据转化为语音到翻译对对于 ST 的训练比多任务学习效果更好的问题，展示了只使用弱监督数据即可以获得高质量的终到端 ST 模型，并讨论了避免模型对合成的语音过度拟合的方法。

Nov, 2018