注意力机制：视觉问答架构（VQA）

Mar, 2018

注意力机制：视觉问答架构（VQA）

Attention on Attention: Architectures for Visual Question Answering (VQA)

Jasdeep Singh, Vincent Ying, Alex Nutkiewicz

TL;DR通过开发十三种新的注意力机制和引入一种简化的分类器，基于首次在 VQA 挑战中获得第一名的模型进行改进，进行了 300 GPU 小时的大量超参数和架构搜索，我们能够实现 64.78％的评估分数，优于现有最先进的单个模型 63.15％的验证分数。

Abstract

visual question answering (VQA) is an increasingly popular topic in deep learning research, requiring coordination of natural language processing and →

visual question answering deep learning attention mechanisms natural language processing computer vision

发现论文，激发创造

改进的视觉问答注意力机制

本文提出了一种改进的基于注意力机制的架构，其中包括一个对注意力结果和查询进行关系确定的 AoA 模块，并提出了多模态融合模块来组合视觉和文本信息，结果在 VQA-v2 基准数据集上达到了最先进的性能。

Nov, 2020

视觉问答技巧：2017 年挑战赛收获

本文介绍了一个用于视觉问答（VQA）的最先进模型，这个模型在 2017 年的 VQA 挑战中获得了第一名。通过对超过 3,000 个 GPU 小时的架构和超参数的深入探索，我们发现了许多用于提高性能的 Tips and Tricks。我们详细地分析了它们的影响以协助其他人进行适当的选择。

Aug, 2017

基于注意力模型的视觉问答算法分析

本文批判性地审查和回顾了视觉问答算法的方法，例如文本语义的生成、物体的识别和采用共同关注的答案分类技术。

May, 2023

视觉问答的层次化问题 - 图像协同注意力

通过建立视觉注意力和问题注意力相结合的协作注意力模型，使用新型一维卷积神经网络来在分层结构中处理问题，从而使 VQA 数据集上的性能从 60.3％提高到 60.5％，并且在 COCO-QA 数据集上从 61.6％提高到 63.3％。在加入 ResNet 模型后，VQA 指标进一步提升至 62.1%，COCO-QA 指标达到 65.4%。

May, 2016

ABC-CNN: 基于注意力的卷积神经网络用于视觉问答

本研究提出一种注意力机制的卷积神经网络，可用于解决视觉问答任务，有效提升已有方法的准确率，并生成与问题相关的关注区域。

Nov, 2015

视觉问答模型和人类智能的认知比较研究

通过比较视觉问答模型的输出和注意力图与人类的相似之处，研究发现虽然 VQA 模型在结构和识别水平上与人类相似，但在认知推理方面仍然存在挑战。人类思维过程的分析有助于指导未来的研究，并在建模特征和架构中引入更多的认知能力。

Oct, 2023

走向透明化的 AI 系统：解释视觉问答模型

该论文探讨使用引导反向传播和遮挡等可视化技术，解释视觉问答（VQA）模型的工作过程，并发现即使没有显式注意机制，VQA 模型有时也会隐含地关注图像中的相关区域和问题中的适当单词。

Aug, 2016

问、看、答：探索基于问题引导的空间关注用于视觉问答

该论文探讨了图像和语言理解的问题，提出了一种基于神经网络的空间记忆网络模型，通过注意力机制进行推理，并在两个视觉问答数据集上取得了改进的结果。

Nov, 2015

通过密集对称共同注意力改进视觉与语言表示的融合用于视觉问答

本文提出了一种基于多步交互和注意力机制的简单且完全对称的网络结构方案，用于解决视觉问答中视觉和语言特征的融合问题，并取得了新的最优结果，而提出的注意力机制也能够生成合理的注意力图从而正确预测答案。

Apr, 2018

视觉问答中的问题类型引导注意力机制

本文提出了一个名为 Question Type-guided Attention (QTA) 的方法，利用问题类型信息动态平衡从 ResNet 和 Faster R-CNN 网络中分别提取的自下而上和自上而下的视觉特征。在 TDIUC 数据集上进行了多项输入实验，并显示 QTA 显著提高了多个问题类型类别的性能，例如 “活动识别”、“效用” 和 “计数”。添加 QTA 后，我们在最先进的 MCB 模型上实现了 3％的总体准确度提高。最后，我们提出了一个多任务扩展以预测问题类型，在缺少问题类型的应用程序中推广 QTA，性能损失最小。

Apr, 2018