多模式统一关注网络用于视觉语言交互

Aug, 2019

多模式统一关注网络用于视觉语言交互

Multimodal Unified Attention Networks for Vision-and-Language Interactions

Zhou Yu, Yuhao Cui, Jun Yu, Dacheng Tao, Qi Tian

TL;DR本研究提出了一种统一的注意力模型，能够同时捕捉多模态特征的内部和跨模态之间的相互作用，并输出相应的注意力表示。通过堆叠这样的统一注意力块，我们获得了深度多模态统一注意力网络 (MUAN)，可以无缝地应用于视觉问答 (VQA) 和视觉定位任务。通过在两个 VQA 数据集和三个视觉定位数据集上评估 MUAN 模型，结果表明 MUAN 在两个任务上都实现了顶级性能。

Abstract

Learning an effective attention mechanism for multimodal data is important in many vision-and-language tasks that require a synergic understanding of both the visual and textual contents. Existing state-of-the-ar

multimodal data attention mechanism co-attention models intra-modal interactions visual question answering

发现论文，激发创造

基于多视角注意力网络的视觉对话

论文旨在通过提出 Multi-View Attention Network (MVAN) 模型来解决视觉对话任务中的挑战性问题，该模型基于注意机制，利用多个视角来处理异构输入，并且通过序列对齐过程构建多模态表示，从而可以更好地捕捉到对话历史中与问题相关的信息，并在 VisDial v1.0 数据集上达到了最佳结果。

Apr, 2020

视觉对话的颗粒多模态注意力网络

本研究提出了一种新的方法，即颗粒多模态注意力，以解决视觉对话任务时需要关注的正确颗粒度的问题。该方法在图像和文本关注网络中得到了改进，并提出了一种粒度多模态注意力网络，可以同时关注图像和文本颗粒，并展现出最佳的性能。该研究发现，获得颗粒注意力和进行穷尽的多模态注意力似乎是解决视觉对话问题时最好的方法。

Oct, 2019

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

双重关注网络用于多模态推理与匹配

提出双重关注网络框架（Dual Attention Networks），应用于视觉和文本场景的多模态推理、比对任务，在 Visual Question Answering 和图片 - 文本比对任务中取得最新的优异表现。

Nov, 2016

视觉问答的深度模块化协同注意力网络

本文提出了一种深度 Modular Co-Attention Network 模型，用于有效处理 Visual Question Answering 中的 co-attention 问题，并在评估中显示了显著优于其他方法的性能。

Jun, 2019

改进的视觉问答注意力机制

本文提出了一种改进的基于注意力机制的架构，其中包括一个对注意力结果和查询进行关系确定的 AoA 模块，并提出了多模态融合模块来组合视觉和文本信息，结果在 VQA-v2 基准数据集上达到了最先进的性能。

Nov, 2020

多模态连续视觉注意机制

本文介绍一种新的连续注意力机制，它生成具有高斯混合形式的多模态密度，用于图像区域的聚合。该方法在视觉问题回答中表现出有竞争力的准确性和自动分离复杂场景中物体和地面的能力，并提供比其他方法更可解释的注意力地图。

Apr, 2021

视觉问答的动态融合与内部和外部模态注意流动

提出了动态融合多模态特征的方法，在视觉和语言模式之间和内部模型之间传递动态信息，从而捕捉语言和视觉领域之间的高级交互作用，显著提高视觉问题回答的效率，同时还提出了关于多模态特征融合的联合训练方法，并使用 VQA 2.0 数据集进行了实验验证，取得了最佳表现。

Dec, 2018

MUREL：多模态关系推理用于视觉问答

本文提出了 MuRel 网络，通过引入 MuRel cell 作为原子性推理原语、模拟问题与图像区域的交互以及建模区域之间的关系，从而利用多模态的关注网络实现复杂的图像识别和多样化的问答。实验表明，MuRel 网络优于现有方法，并在多个数据集上达到了竞争和最优水平。

Feb, 2019

视觉问答的多模态潜在交互网络

该研究提出了一种多模态潜在交互模块（MLI），用于学习图像问题答案中潜在的视觉和语言信息之间的跨模态关系，从而最大化地汇总了两种信息来源，并且与预训练语言模型 BERT 结合可以显着提高性能，达到了竞争性的结果。

Aug, 2019