跨模态对比学习用于语音翻译

ACLMay, 2022

Cross-modal Contrastive Learning for Speech Translation

Rong Ye, Mingxuan Wang, Lei Li

TL;DR本文提出了一种名为 ConST 的跨模态对比学习方法，用于端到端的语音到文本翻译，并在流行基准数据集 MuST-C 上对其进行了评估和比较。实验结果表明，相比之前的方法，该方法在不同模态语音 - 文本之间实现了更高的精确度和平均 BLEU 达到了 29.4。同时分析结果进一步证明了 ConST 获得了更好的表示学习结果。

Abstract

How can we learn unified representations for spoken utterances and their written text? Learning similar representations for semantically similar speech and text is important for speech translation. To this end, we propose ConST, a cross-modal contrastive learning method for

cross-modal contrastive learning speech-to-text translation must-c representation learning end-to-end

发现论文，激发创造

通过跨模态多粒度对比学习提高语音翻译质量

该论文提出了一种 FCCL 方法，通过跨模态多粒度对比学习来实现显式知识转移，该方法在多语言和多粒度上显著优于 E2E-ST 基线，有助于提取包含丰富语义信息的语音表示。

Apr, 2023

融合语音和文本改进语音翻译

该研究提出了 FST 跨模态模型，支持语音、文本和语音文本融合三种不同类型的输入模态进行翻译，技术包括多模态对齐等方法，实验结果表明该模型在多项测试中比传统方法有显著提升，尤其是在语音翻译领域。

May, 2023

对比学习的多语言表征蒸馏

该研究加入对比学习以蒸馏多语言表示，并用于平行语句的质量估计。实验证明，该方法在不同的资源稀少语言上显著优于先前的句子编码器，诸如 LASER 等。

Oct, 2022

重思和改进端到端语音翻译的多任务学习

通过应用多任务学习，已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性，并提出了一种改进的多任务学习方法，通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外，当使用额外的数据时，我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。

Nov, 2023

理解和弥合语音翻译的模态差距

本文研究对于 ST 和 MT 之间的通道差，提出了一种名为 Cress 的跨模态规范化方法。通过输出 ST 和 MT 的预测值，使用采样和不同训练权重来处理难以处理的情况，实现了在 MuST-C 数据集的八个方向上取得了显著效果。

May, 2023

弥合语音到文本翻译的模态差距

提出了一种称作 STAST 的语音转写自适应模型，通过分离语音翻译编码器为三个部分以及引入跨模态自适应方法来缩小语音和文本的模态差距，进而在英法和英德语音翻译数据集上实现了显著的性能优越。

Oct, 2020

利用跨语言一致性正则化提升零样本多语言神经机器翻译

本文介绍了一种跨语言一致性正则化方法 CrossConST，用于在多语言神经机器翻译模型中实现零 - shot 翻译，以实现不同语言之间的普适表示，并提高翻译性能。实验结果证明 CrossConST 能够提高模型的翻译性能并降低句子表示间的差距，为未来的多语言 NMT 研究奠定了基础。

May, 2023

跨模态渐进训练的端到端语音翻译

提出了一种基于 Cross Speech-Text（XSTNet）网络的用于语音翻译的端到端模型，采用自监督预训练子网络作为音频编码器、多任务训练目标以及渐进式训练策略，并在 MuST-C En-X 和 LibriSpeech En-Fr 数据集上取得了最新的最佳效果，平均 BLEU 值为 28.8，优于之前的最佳方法 3.2 BLEU。

Apr, 2021

CMOT: 基于最优传输的跨模态 Mixup 语音翻译

该论文研究了语音翻译的跨模态任务，以及如何通过使用最优传输和跨模态混合等方法，来克服语音和文本之间的模态差异，从而提高翻译的准确性。实验结果表明，该方法比以往方法表现更优秀。

May, 2023

多模态情感分析中的单模编码和跨模态预测的多模态对比学习

本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架，用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术，包括单模态对比编码和伪孪生网络，来过滤内嵌噪声和捕获跨模态动态。此外，我们设计了两种对比学习任务，实例和基于情感的对比学习，以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明，我们的方法超过了现有的最先进方法。

Oct, 2022