跨模态对比学习用于语音翻译
该论文提出了一种 FCCL 方法,通过跨模态多粒度对比学习来实现显式知识转移,该方法在多语言和多粒度上显著优于 E2E-ST 基线,有助于提取包含丰富语义信息的语音表示。
Apr, 2023
该研究提出了 FST 跨模态模型,支持语音、文本和语音文本融合三种不同类型的输入模态进行翻译,技术包括多模态对齐等方法,实验结果表明该模型在多项测试中比传统方法有显著提升,尤其是在语音翻译领域。
May, 2023
通过应用多任务学习,已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性,并提出了一种改进的多任务学习方法,通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外,当使用额外的数据时,我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。
Nov, 2023
本文研究对于 ST 和 MT 之间的通道差,提出了一种名为 Cress 的跨模态规范化方法。通过输出 ST 和 MT 的预测值,使用采样和不同训练权重来处理难以处理的情况,实现了在 MuST-C 数据集的八个方向上取得了显著效果。
May, 2023
提出了一种称作 STAST 的语音转写自适应模型,通过分离语音翻译编码器为三个部分以及引入跨模态自适应方法来缩小语音和文本的模态差距,进而在英法和英德语音翻译数据集上实现了显著的性能优越。
Oct, 2020
本文介绍了一种跨语言一致性正则化方法 CrossConST,用于在多语言神经机器翻译模型中实现零 - shot 翻译,以实现不同语言之间的普适表示,并提高翻译性能。实验结果证明 CrossConST 能够提高模型的翻译性能并降低句子表示间的差距,为未来的多语言 NMT 研究奠定了基础。
May, 2023
提出了一种基于 Cross Speech-Text(XSTNet)网络的用于语音翻译的端到端模型,采用自监督预训练子网络作为音频编码器、多任务训练目标以及渐进式训练策略,并在 MuST-C En-X 和 LibriSpeech En-Fr 数据集上取得了最新的最佳效果,平均 BLEU 值为 28.8,优于之前的最佳方法 3.2 BLEU。
Apr, 2021
该论文研究了语音翻译的跨模态任务,以及如何通过使用最优传输和跨模态混合等方法,来克服语音和文本之间的模态差异,从而提高翻译的准确性。实验结果表明,该方法比以往方法表现更优秀。
May, 2023
本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架,用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术,包括单模态对比编码和伪孪生网络,来过滤内嵌噪声和捕获跨模态动态。此外,我们设计了两种对比学习任务,实例和基于情感的对比学习,以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明,我们的方法超过了现有的最先进方法。
Oct, 2022