级联自注意力和互注意力块的视觉问答

Feb, 2023

级联自注意力和互注意力块的视觉问答

VQA with Cascade of Self- and Co-Attention Blocks

Aakansha Mishra, Ashish Anand, Prithwijit Guha

TL;DR本文提出了一种通过视觉和文本模态的密集交互来学习改进的多模态表示的模型，其 attention block 包含自我注意力和共注意力，旨在提高视觉问题回答任务的性能。该模型在 VQA2.0 和 TDIUC 数据集上经过基准测试，并通过消融分析实验证明了模型的关键组件和注意力模块级联的有效性。

Abstract

The use of complex attention modules has improved the performance of the visual question answering (VQA) task. This work aims to learn an improved →

visual question answering multi-modal representation attention modules self-attention co-attention

发现论文，激发创造

视觉问答的深度模块化协同注意力网络

本文提出了一种深度 Modular Co-Attention Network 模型，用于有效处理 Visual Question Answering 中的 co-attention 问题，并在评估中显示了显著优于其他方法的性能。

Jun, 2019

改进的视觉问答注意力机制

本文提出了一种改进的基于注意力机制的架构，其中包括一个对注意力结果和查询进行关系确定的 AoA 模块，并提出了多模态融合模块来组合视觉和文本信息，结果在 VQA-v2 基准数据集上达到了最先进的性能。

Nov, 2020

视觉问答的层次化问题 - 图像协同注意力

通过建立视觉注意力和问题注意力相结合的协作注意力模型，使用新型一维卷积神经网络来在分层结构中处理问题，从而使 VQA 数据集上的性能从 60.3％提高到 60.5％，并且在 COCO-QA 数据集上从 61.6％提高到 63.3％。在加入 ResNet 模型后，VQA 指标进一步提升至 62.1%，COCO-QA 指标达到 65.4%。

May, 2016

视觉问答中的问题类型引导注意力机制

本文提出了一个名为 Question Type-guided Attention (QTA) 的方法，利用问题类型信息动态平衡从 ResNet 和 Faster R-CNN 网络中分别提取的自下而上和自上而下的视觉特征。在 TDIUC 数据集上进行了多项输入实验，并显示 QTA 显著提高了多个问题类型类别的性能，例如 “活动识别”、“效用” 和 “计数”。添加 QTA 后，我们在最先进的 MCB 模型上实现了 3％的总体准确度提高。最后，我们提出了一个多任务扩展以预测问题类型，在缺少问题类型的应用程序中推广 QTA，性能损失最小。

Apr, 2018

用于视觉问答的高阶注意力模型

本文提出了一种新颖且通用的注意力机制，可以学习不同数据模态之间的高阶相关性。作者实验证明高阶相关性可以将适当的关注点引导到不同数据模态中的相关元素，来更好地解决联合任务，如视觉问答（VQA），在 VQA 标准数据集上实现了最先进的性能。

Nov, 2017

视觉问答的互注意融合

该研究提出了一种新的注意力机制，同时考虑视觉细节的两个层次，即物体实例和它们的部分，通过高效的张量分解方案，设计了分层融合多模态信息的模型并提高了已有模型达到了一个显著的提升。

May, 2018

面向 TextVQA 的空间感知多模态 Transformer

本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型，可以有效地推理图像中的文本内容，改进了 TextVQA 和 ST-VQA 两个关键指标，同时为视觉绑定的研究方向提供了新的思路。

Jul, 2020

多模式统一关注网络用于视觉语言交互

本研究提出了一种统一的注意力模型，能够同时捕捉多模态特征的内部和跨模态之间的相互作用，并输出相应的注意力表示。通过堆叠这样的统一注意力块，我们获得了深度多模态统一注意力网络 (MUAN)，可以无缝地应用于视觉问答 (VQA) 和视觉定位任务。通过在两个 VQA 数据集和三个视觉定位数据集上评估 MUAN 模型，结果表明 MUAN 在两个任务上都实现了顶级性能。

Aug, 2019

注意力机制：视觉问答架构（VQA）

通过开发十三种新的注意力机制和引入一种简化的分类器，基于首次在 VQA 挑战中获得第一名的模型进行改进，进行了 300 GPU 小时的大量超参数和架构搜索，我们能够实现 64.78％的评估分数，优于现有最先进的单个模型 63.15％的验证分数。

Mar, 2018

基于注意力模型的视觉问答算法分析

本文批判性地审查和回顾了视觉问答算法的方法，例如文本语义的生成、物体的识别和采用共同关注的答案分类技术。

May, 2023