多模态机器翻译的视觉注意力基础神经模型

Aug, 2018

多模态机器翻译的视觉注意力基础神经模型

A Visual Attention Grounding Neural Model for Multimodal Machine Translation

Mingyang Zhou, Runxiang Cheng, Yong Jae Lee, Zhou Yu

TL;DR我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Abstract

We introduce a novel multimodal machine translation model that utilizes parallel visual and textual information. Our model jointly optimizes the learning of a shared visual-language embedding and a translator. Th

multimodal machine translation visual attention grounding shared visual-language embedding multilingual dataset competitive results

发现论文，激发创造

基于多头注意力的多元化地位学习跨语言多模态表示

本文提出了一种基于视觉物体检测和不同文本语义的多语言多模态表示的模型，采用多头注意力机制对两种语言的文本语义和视觉对象进行细粒度对齐，从而学习到更好的视觉 - 语义嵌入空间，并在多个任务上展现了比其他方法更显著的性能提升。

Sep, 2019

用于同时多模机器翻译的监督式视觉注意力

本文提出基于 Transformer 的多模式机器翻译 (MMT) 与视觉注意力机制相结合的模型，并使用带标签的短语 - 区域对齐的辅助信号指导其视觉注意力机制，实现目前最佳 BLEU 和 METEOR 分数的提升。

Jan, 2022

想象力提高多模翻译

本文研究了多模式翻译任务的两个子任务：学习翻译和学习视觉有关表征，并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现，这种方法在 Multi30K 数据集上比基准表现要好，即使在外部 MS COCO 数据集进行训练也同样有效，而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。

May, 2017

多模态神经机器翻译中的双重注意力解码器

我们引入了一种多模态神经机器翻译模型，其中双重注意力解码器自然地整合了使用预先训练的卷积神经网络获取的空间视觉特征，弥合了图像描述和翻译之间的差距。我们的解码器通过两个独立的注意机制在生成目标语言单词时独立地关注源语言单词和图像的部分。我们发现我们的模型不仅可以高效地利用反向翻译的域内多模态数据，还可以利用大规模的通用领域文本翻译语料库。我们还在 Multi30k 数据集上报告了最先进的结果。

Feb, 2017

多模态注意力神经机器翻译

本文将多模态注意力机制应用于图像字幕生成领域，通过在自然语言描述和图像上同时聚焦，实现了一种基于图像字幕的另一种语言描述生成方法，并在 Multi30k 数据集上取得了更好的效果。

Sep, 2016

跨语言视觉预训练用于多模式机器翻译

本文结合视觉和语言的跨语言预训练方法，使用三重并行视觉和语言语料库进行预训练，并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。

Jan, 2021

像双语婴儿一样：视觉引导双语语言模型的优势

通过使用 MS-COCO-ES 数据集中的英语和西班牙语的图像和字幕来训练 LSTM 语言模型，研究发现视觉基础能够提高语义相似性的理解能力，特别是在跨语言时，但是在抽象词汇方面没有显著优势。研究还指出，为了进一步提高视觉基础的语言模型的实用性，需要更多多语言数据和多语言说话者的感知基础。

Oct, 2022

多模式统一关注网络用于视觉语言交互

本研究提出了一种统一的注意力模型，能够同时捕捉多模态特征的内部和跨模态之间的相互作用，并输出相应的注意力表示。通过堆叠这样的统一注意力块，我们获得了深度多模态统一注意力网络 (MUAN)，可以无缝地应用于视觉问答 (VQA) 和视觉定位任务。通过在两个 VQA 数据集和三个视觉定位数据集上评估 MUAN 模型，结果表明 MUAN 在两个任务上都实现了顶级性能。

Aug, 2019

通过丰富视觉特征和视觉驱动的词向量提升多模态神经机器翻译

本文探讨了在多模态神经机器翻译 (MNMT) 中使用密集标注模型进行视觉特征提取和词嵌入，以提高图像描述翻译模型的效果。

Jul, 2017

基于伪可视中心词的无监督多模态神经机器翻译

本研究探讨如何利用视觉内容实现无监督多模态机器翻译领域的降歧和提升潜空间的对齐度。该模型采用多模态反向翻译，具备伪视觉枢轴功能，实现了多语言视觉 - 语义嵌入空间学习和视觉轴描述补充弱监督。实验证明该模型显著超越了最先进的方法，并能在测试时很好地进行泛化。

May, 2020