TMT: 通过将不同形式阐述视为不同语言的三模式语音、图像和文本之间的翻译

Feb, 2024

TMT: 通过将不同形式阐述视为不同语言的三模式语音、图像和文本之间的翻译

TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages

Minsu Kim, Jee-weon Jung, Hyeongseop Rha, Soumi Maiti, Siddhant Arora...

TL;DR我们提出了一种新颖的 Tri-Modal Translation（TMT）模型，它能够在语音、图像和文本之间进行任意模态的翻译，并通过将语音和图像数据标记为离散标记来统一界面并显著降低计算成本。通过在 TMT 中使用多模态编码器 - 解码器进行核心翻译，同时仅在标记化和解标记化阶段进行模态特定的处理，我们评估了所提出的 TMT 在六个模态翻译任务上的性能，并且 TMT 始终优于单模型对应物，表明统一任务不仅在实用性上有益，而且在性能上也有益。

Abstract

The capability to jointly process multi-modal information is becoming an essential task. However, the limited number of paired multi-modal data and the large computational requirements in multi-modal learning hin

multi-modal information paired multi-modal data tri-modal translation (tmt)machine translation modality-specific processing

发现论文，激发创造

超越三元组：利用最多数据进行多模态机器翻译

通过提出一个新的方法和新的数据集，本文致力于提高多模式机器翻译的翻译质量并解决了只能利用少量数据和当前的基准相对较为受限约束的问题，结果表明我们的方法更适合实际场景并显著提高了翻译性能。

Dec, 2022

通过视觉和语音进行多模式机器翻译

本文综述了多模式机器翻译的重要数据资源、评估活动、端到端及管道方法的最新成果，以及在绩效评估方面面临的挑战，并讨论了这些领域未来研究的方向。

Nov, 2019

面向多模态同时神经机器翻译

提出了一种多模式神经机器翻译方法，即多模式同时翻译 (MSNMT)，能够在翻译过程中利用视频信息和实现实时多语言理解。实验证实，该方法可显著提高翻译效率，特别是在低延迟情况下，比单纯文本的模型更加优秀。此外，我们通过对 MSNMT 的对抗性评估研究发现了视频信息在解码过程中的重要性，并分析了源语言和目标语言之间不同的单词顺序对翻译结果的影响。

Apr, 2020

利用图像解决歧义问题：改进的多模态机器翻译和对比评估

该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法，同时还发布了 CoMMuTE 数据集，并在该数据集上取得了显著的性能提升。

Dec, 2022

LVP-M3: 多语言多模机器翻译的语言感知可视提示

本文提出了跨多种语言的多模式机器翻译 (Multilingual MMT) 任务，通过提供多语言的共享语义空间来解决为每对语言训练单独模型的高昂成本问题；通过建立两个新的多语言 MMT 基准数据集，并提出了一种基于视觉提示的有效基准模型 LVP-M3，该模型包括三个阶段（token 编码、语言感知的视觉提示生成和语言翻译），实验结果表明该方法在多语言 MMT 中的有效性。

Oct, 2022

无监督多模态神经机器翻译

本研究提出了一种基于多模态机器翻译框架的无监督神经机器翻译方法，通过图像识别加强双向多模态翻译的学习效果，在 Multi30K 数据集上与传统基于文本的神经机器翻译相比，本方法有更好的实验结果。

Nov, 2018

多模态机器翻译调查：任务、方法与挑战

多模态机器翻译是近年来引起学术界和工业界广泛关注的研究领域，本文通过综述先前的 99 项研究工作，全面总结了主要模型、数据集和评估指标，分析了各种因素对模型性能的影响，并讨论了未来该领域的研究方向。与之前限制在早期多模态机器翻译的调查不同，我们的调查从不同角度深入总结了这些新兴类型，以便为研究人员提供对目前研究状况的更好理解。

May, 2024

多模机器翻译中视觉语境需要的经验证实

通过设计可解释的多模态翻译模型，我们发现多模态信息对于机器翻译的提升并不显著，相反是由于正则化效应带来的，这一发现强调了可解释性在未来研究中的重要性及其作用。

May, 2021

m3P: 走向多模多语翻译与多模提示

通过引入视觉语境作为通用的语言无关表示来促进多语言翻译的方法，该方法利用多模态提示来指导多模态多语言神经机器翻译，在低资源和大规模多语言场景下改善了翻译质量。

Mar, 2024

一种基于图形的多模态融合编码器在神经机器翻译中的应用

本论文提出了一种新型的基于图的多模态融合编码器，用于多模态神经机器翻译（NMT）中利用不同模态语义单元之间的细粒度语义对应关系，以优化多模态表示学习，并在 Multi30K 数据集上验证了模型的卓越性能。

Jul, 2020