视觉问答的动态融合与内部和外部模态注意流动

CVPRDec, 2018

视觉问答的动态融合与内部和外部模态注意流动

Dynamic Fusion with Intra- and Inter- Modality Attention Flow for Visual Question Answering

Gao Peng, Zhengkai Jiang, Haoxuan You, Pan Lu, Steven Hoi...

TL;DR提出了动态融合多模态特征的方法，在视觉和语言模式之间和内部模型之间传递动态信息，从而捕捉语言和视觉领域之间的高级交互作用，显著提高视觉问题回答的效率，同时还提出了关于多模态特征融合的联合训练方法，并使用 VQA 2.0 数据集进行了实验验证，取得了最佳表现。

Abstract

Learning effective fusion of multi-modality features is at the heart of visual question answering. We propose a novel method of dynamically fusing multi-modal features with intra- and →

multi-modality features visual question answering intra-modality attention inter-modality information vqa performance

发现论文，激发创造

通过密集对称共同注意力改进视觉与语言表示的融合用于视觉问答

本文提出了一种基于多步交互和注意力机制的简单且完全对称的网络结构方案，用于解决视觉问答中视觉和语言特征的融合问题，并取得了新的最优结果，而提出的注意力机制也能够生成合理的注意力图从而正确预测答案。

Apr, 2018

改进的视觉问答注意力机制

本文提出了一种改进的基于注意力机制的架构，其中包括一个对注意力结果和查询进行关系确定的 AoA 模块，并提出了多模态融合模块来组合视觉和文本信息，结果在 VQA-v2 基准数据集上达到了最先进的性能。

Nov, 2020

视觉问答的互注意融合

该研究提出了一种新的注意力机制，同时考虑视觉细节的两个层次，即物体实例和它们的部分，通过高效的张量分解方案，设计了分层融合多模态信息的模型并提高了已有模型达到了一个显著的提升。

May, 2018

异构内存增强的多模态注意力模型用于视频问答

本文提出了一种新的端到端可训练的视频问答（VideoQA）框架，包含三个主要组成部分：新的异构内存、重设计的问题内存和新的多模式融合层，其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案，实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。

Apr, 2019

基于反应式多阶段特征融合的多模态对话建模

本文提出了一种直观的机制，通过多个阶段融合特征和注意力以很好地集成多模式特征，以解决音频视觉场景感知对话任务，并进一步分析了各种最先进的模型在该任务上的泛化能力。

Aug, 2019

Mucko: 基于事实的视觉问答的多层交叉模态知识推理

本文提出了一种多模态异构图神经网络来解决基于事实的视觉问答问题，该模型通过逐层的图卷积网络对问题相关证据进行迭代式推理，并在多种数据集上获得了最新的最佳成绩。

Jun, 2020

面向视觉问答的聚焦动态注意力模型

本文提出了一种基于 Focused Dynamic Attention 模型的视觉问答方法，该方法通过结合全局特征和重点区域信息，能够更好地处理细粒度信息和语言语义，进而提高了视觉问答的表现。

Apr, 2016

多模式统一关注网络用于视觉语言交互

本研究提出了一种统一的注意力模型，能够同时捕捉多模态特征的内部和跨模态之间的相互作用，并输出相应的注意力表示。通过堆叠这样的统一注意力块，我们获得了深度多模态统一注意力网络 (MUAN)，可以无缝地应用于视觉问答 (VQA) 和视觉定位任务。通过在两个 VQA 数据集和三个视觉定位数据集上评估 MUAN 模型，结果表明 MUAN 在两个任务上都实现了顶级性能。

Aug, 2019

视觉问答中的物体属性重要性

提出了一种基于物体属性利用的视觉问答方法，旨在实现更好的物体级视觉 - 语言对齐和多模态场景理解。通过属性融合模块和对比知识蒸馏模块，构建多模态图神经网络，融合属性和视觉特征，改善细粒度问题的解决和多模态场景的理解，从而提高模型的鲁棒性。通过对六个数据集的密集实验，COCO-QA、VQAv2、VQA-CPv2、VQA-CPv1、VQAvs 和 TDIUC，验证了该方法的优越性。

Dec, 2023

视觉问答的多模态潜在交互网络

该研究提出了一种多模态潜在交互模块（MLI），用于学习图像问题答案中潜在的视觉和语言信息之间的跨模态关系，从而最大化地汇总了两种信息来源，并且与预训练语言模型 BERT 结合可以显着提高性能，达到了竞争性的结果。

Aug, 2019