CMOT: 基于最优传输的跨模态 Mixup 语音翻译

ACLMay, 2023

CMOT: 基于最优传输的跨模态 Mixup 语音翻译

CMOT: Cross-modal Mixup via Optimal Transport for Speech Translation

Yan Zhou, Qingkai Fang, Yang Feng

TL;DR该论文研究了语音翻译的跨模态任务，以及如何通过使用最优传输和跨模态混合等方法，来克服语音和文本之间的模态差异，从而提高翻译的准确性。实验结果表明，该方法比以往方法表现更优秀。

Abstract

end-to-end speech translation (ST) is the task of translating speech signals in the source language into text in the target language. As a cross-modal task, end-to-end ST is difficult to train with limited data.

end-to-end speech translation cross-modal task machine translation optimal transport modality gap

发现论文，激发创造

理解和弥合语音翻译的模态差距

本文研究对于 ST 和 MT 之间的通道差，提出了一种名为 Cress 的跨模态规范化方法。通过输出 ST 和 MT 的预测值，使用采样和不同训练权重来处理难以处理的情况，实现了在 MuST-C 数据集的八个方向上取得了显著效果。

May, 2023

离散跨模态对齐实现零 - shot 语音翻译

该研究提出了一种新的离线语音翻译方法，称为离散跨模态对齐方法（Discrete Cross-Modal Alignment method），该方法能有效地将语音和文字的两种模态映射到共享的语义空间中，从而提高零 - shot 语音翻译的性能。

Oct, 2022

重思和改进端到端语音翻译的多任务学习

通过应用多任务学习，已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性，并提出了一种改进的多任务学习方法，通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外，当使用额外的数据时，我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。

Nov, 2023

逐步推进零尾到尾语音翻译的极限

该论文介绍了一种名为 ZeroSwot 的零样本语音翻译方法，通过利用新颖的 CTC 压缩和最优传输技术，在没有配对的语音翻译数据的情况下，通过仅使用语音识别数据训练语音编码器，实现了语音到文本的直接翻译，展示了该方法在模态差异上的优越性和超越之前的零样本模型以及有监督模型的实验结果，达到了最先进的效果。

Feb, 2024

跨模态多任务语音转文字翻译与参数共享

最近的研究在端到端语音到文本翻译（ST）中提出了多任务方法，通过辅助编码器将机器翻译（MT）数据映射到最终的跨模态表示中，采用软参数共享。本研究提出了一种具有硬参数共享的 ST/MT 多任务框架，通过预处理阶段将语音和文本输入转换为两个长度相似的离散令牌序列，从而减少了语音 - 文本模态差异。通过在 MuST-C 上的实验，我们证明了我们的多任务框架平均提高了 0.5 BLEU 的关注编码器 - 解码器、连接时序分类（CTC）、转录器和联合 CTC / 关注模型，而无需外部 MT 数据。此外，我们还展示了这个框架的融入外部 MT 数据可以产生 0.8 BLEU 的改进，并且可以提高从预训练的文本模型进行迁移学习，从而产生 1.8 BLEU 的改进。

Sep, 2023

弥合语音到文本翻译的模态差距

提出了一种称作 STAST 的语音转写自适应模型，通过分离语音翻译编码器为三个部分以及引入跨模态自适应方法来缩小语音和文本的模态差距，进而在英法和英德语音翻译数据集上实现了显著的性能优越。

Oct, 2020

跨模态对比学习用于语音翻译

本文提出了一种名为 ConST 的跨模态对比学习方法，用于端到端的语音到文本翻译，并在流行基准数据集 MuST-C 上对其进行了评估和比较。实验结果表明，相比之前的方法，该方法在不同模态语音 - 文本之间实现了更高的精确度和平均 BLEU 达到了 29.4。同时分析结果进一步证明了 ConST 获得了更好的表示学习结果。

May, 2022

语音翻译的预训练：CTC 应用最优输运

本文提出了一种通过前置训练解决语音到文本模式间隔问题的方法，其中使用连接主义时间分类损失和最优传输相结合的前置训练，该方法在标准的 CoVoST-2 和 MuST-C 数据集上实现了最新的性能，并与最近的强多任务学习系统表现相当。

Jan, 2023

基于形式不可知元学习的数据高效直接语音翻译

本文提出了一种基于元学习算法采用模态不可知的多任务模型，将源任务 ASR + MT 的知识转移到目标任务 ST 中，以应对 ST 任务短缺数据的问题，该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。

Nov, 2019

通过跨模态多粒度对比学习提高语音翻译质量

该论文提出了一种 FCCL 方法，通过跨模态多粒度对比学习来实现显式知识转移，该方法在多语言和多粒度上显著优于 E2E-ST 基线，有助于提取包含丰富语义信息的语音表示。

Apr, 2023