通过视觉问答对将探测信号融入多模态机器翻译

EMNLPOct, 2023

通过视觉问答对将探测信号融入多模态机器翻译

Incorporating Probing Signals into Multimodal Machine Translation via Visual Question-Answering Pairs

Yuxin Zuo, Bei Li, Chuanhao Lv, Tong Zheng, Tong Xiao...

TL;DR本研究论文通过深入研究多模式机器翻译（MMT），探讨了 MMT 系统在源文本完整时对视觉信息的敏感性降低的现象，并提出了一种新的方法来生成并行的视觉问答（VQA）风格对，以促进更强大的跨模态交互。使用大型语言模型（LLMs），将 MMT 中的探测信号显式建模为 VQA 风格数据，创建了 Multi30K-VQA 数据集，并引入了 MMT-VQA 多任务学习框架，将来自数据集的显式探测信号纳入 MMT 训练过程。在两个广泛使用的基准测试中验证了该新方法的有效性。本文提供的代码和数据可在 https://github.com/libeineu/MMT-VQA 获取。

Abstract

This paper presents an in-depth study of multimodal machine translation (MMT), examining the prevailing understanding that MMT systems exhibit decreased sensitivity to visual information when text inputs are comp

multimodal machine translation cross-modal interaction visual information vqa-style multitask learning

发现论文，激发创造

从信息论的角度增强多模态神经机器翻译的视觉意识

本文旨在从信息论角度提高多模式机器翻译的视觉感知能力，通过将信息量化为源特定信息和目标特定信息，并提出两种目标优化方法以更好地利用视觉信号来解决输入退化的问题。实验结果表明，我们的方法可以显著提高 MMT 模型的视觉感知能力，并在两个数据集上取得了优秀的结果。

Oct, 2022

多模式机器翻译模型的合理性检查：关注视觉确保准确性

本文研究了多模式机器翻译（MMT）系统在存在视觉上下文时比纯文本神经机器翻译（NMT）系统表现更好，并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性，表明 MMT 架构相关的有效研究目前受到合适数据集的限制，未来的 MMT 数据集必须经过仔细考虑。

Sep, 2021

多模态机器翻译中视觉上下文的必要性探究

本文中，我们研究了多模式机器翻译（MMT）中视觉模态的贡献，通过分析证明，即使在有限的文本和文本上下文的情况下，模型也能够利用视觉输入来生成更好的翻译结果。

Mar, 2019

基于短语级通用视觉表征的神经机器翻译

对比于其它多模式机器翻译 (MMT) 方法，我们提出了一种短语级别检索的 MMT 方法，从已有的文本 - 图像数据集中获得源输入的视觉信息，有利于缓解输入限制和数据稀疏的问题，并且通过条件变分自编码器可以更好地过滤多余的视觉信息和仅保留和短语相关的视觉信息。这个方法在多个 MMT 数据集上实验结果表明显著优于强基线模型，尤其是在文本语境有限的情况下。

Mar, 2022

基于伪可视中心词的无监督多模态神经机器翻译

本研究探讨如何利用视觉内容实现无监督多模态机器翻译领域的降歧和提升潜空间的对齐度。该模型采用多模态反向翻译，具备伪视觉枢轴功能，实现了多语言视觉 - 语义嵌入空间学习和视觉轴描述补充弱监督。实验证明该模型显著超越了最先进的方法，并能在测试时很好地进行泛化。

May, 2020

用于同时多模机器翻译的监督式视觉注意力

本文提出基于 Transformer 的多模式机器翻译 (MMT) 与视觉注意力机制相结合的模型，并使用带标签的短语 - 区域对齐的辅助信号指导其视觉注意力机制，实现目前最佳 BLEU 和 METEOR 分数的提升。

Jan, 2022

利用图像解决歧义问题：改进的多模态机器翻译和对比评估

该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法，同时还发布了 CoMMuTE 数据集，并在该数据集上取得了显著的性能提升。

Dec, 2022

ViTA: 通过对齐对象标签进行视觉语言翻译

该论文提出了一种名为 Volta 的系统，通过提取图像中的对象标签来增强多模式机器翻译系统的文本输入，成功地在 WAT 2021 的多模式翻译任务中获得了 BLEU 分数 44.6 和 51.6。

Jun, 2021

探索使用真实数据集的多模式机器翻译中视觉模态的必要性

近期在多模式机器翻译（MMT）领域的研究表明，视觉模态在翻译效果方面要么可有可无，要么只提供了边缘化优势。然而，这些结论大多来自于对有限的双语句子 - 图像配对数据集（如 Multi30k）的实验结果分析，而这类数据集中，一个双语平行句对的内容必须由手工标注的图像很好地表达，这与真实的翻译场景不同。在这项工作中，我们遵循了唐等人（2022 年）提出的通用多模式机器翻译框架。这种方法使我们能够通过利用真实世界的翻译数据集，深入研究视觉模态对翻译效果的影响。通过全面的探索性任务，我们发现视觉模态对大多数真实翻译数据集具有优势。值得注意的是，翻译性能主要取决于文本和视觉内容之间的对齐和一致性。此外，我们的结果表明，视觉信息在多模式翻译中发挥了补充作用，可以被替代。

Apr, 2024

LVP-M3: 多语言多模机器翻译的语言感知可视提示

本文提出了跨多种语言的多模式机器翻译 (Multilingual MMT) 任务，通过提供多语言的共享语义空间来解决为每对语言训练单独模型的高昂成本问题；通过建立两个新的多语言 MMT 基准数据集，并提出了一种基于视觉提示的有效基准模型 LVP-M3，该模型包括三个阶段（token 编码、语言感知的视觉提示生成和语言翻译），实验结果表明该方法在多语言 MMT 中的有效性。

Oct, 2022