为视觉问答辩护的网格特征

Jan, 2020

In Defense of Grid Features for Visual Question Answering

Huaizu Jiang, Ishan Misra, Marcus Rohrbach, Erik Learned-Miller, Xinlei Chen

TL;DR本文探讨了基于 Bounding Box/Region 的 Bottom-up attention 方法是否是解决 Vision and Language 任务（如视觉问答（VQA））成功的关键因素，结果发现与 grid features 方法相比，前者的优势并非是最重要的。同时，grid features 方法设计和训练更加简单，使用更加灵活，并且能够进行端到端训练，不需要 region 标注，实现了直接从像素到答案的学习。

Abstract

Popularized as 'bottom-up' attention, bounding box (or region) based visual features have recently surpassed vanilla grid-based convolutional features as the de facto standard for vision and language tasks like visual question answering (vqa). However, it is not clear whether the advan

visual features bottom-up attention grid features vqa end-to-end training

发现论文，激发创造

基于自下而上和自上而下的注意力机制用于图像字幕生成与视觉问答

本篇研究提出一种混合自下而上和自上而下视觉关注机制，能在对象和其他显著图像区域的水平上计算注意力权重，实现更深入图像理解，将其应用于图像字幕生成和视觉问答任务中，取得了优于现有技术的成绩。

Jul, 2017

视觉问答的结构型注意力

本文提出通过构建基于网格结构条件随机场上的多变量分布的视觉注意力模型来有效地编码复杂的跨区域关系，并将迭代推理算法转换成端到端的神经网络层，该模型在 3 个数据集上的实验评估结果表明，它超过了新发布的 CLEVR 数据集的最佳基线模型 9.5％，并超过了 VQA 数据集上最佳发布模型 1.25％。

Aug, 2017

多模态乘积特征嵌入共同关注自由形式区域和检测用于视觉问答

本篇研究提出了一种基于注意力机制和深度神经网络的视觉问答方法，通过多模态特征嵌入策略，联合关注自由区域和检测框区域，实现更准确的图像问答。在 COCO-QA 和 VQA 数据集上测试，结果表明该方法优于现有方法。

Nov, 2017

视觉问答的互注意融合

该研究提出了一种新的注意力机制，同时考虑视觉细节的两个层次，即物体实例和它们的部分，通过高效的张量分解方案，设计了分层融合多模态信息的模型并提高了已有模型达到了一个显著的提升。

May, 2018

视觉问答中的问题类型引导注意力机制

本文提出了一个名为 Question Type-guided Attention (QTA) 的方法，利用问题类型信息动态平衡从 ResNet 和 Faster R-CNN 网络中分别提取的自下而上和自上而下的视觉特征。在 TDIUC 数据集上进行了多项输入实验，并显示 QTA 显著提高了多个问题类型类别的性能，例如 “活动识别”、“效用” 和 “计数”。添加 QTA 后，我们在最先进的 MCB 模型上实现了 3％的总体准确度提高。最后，我们提出了一个多任务扩展以预测问题类型，在缺少问题类型的应用程序中推广 QTA，性能损失最小。

Apr, 2018

视觉问答的层次化问题 - 图像协同注意力

通过建立视觉注意力和问题注意力相结合的协作注意力模型，使用新型一维卷积神经网络来在分层结构中处理问题，从而使 VQA 数据集上的性能从 60.3％提高到 60.5％，并且在 COCO-QA 数据集上从 61.6％提高到 63.3％。在加入 ResNet 模型后，VQA 指标进一步提升至 62.1%，COCO-QA 指标达到 65.4%。

May, 2016

用正确的图像区域回答问题：一种视觉关注正则化方法

本文提出一种名为 AttReg 的视觉关注正则化方法，用于更好地在 VQA 中进行视觉基础。AttReg 首先确定对于问题回答而言关键的图像区域，然后利用基于掩蔽的学习方案来规范化视觉关注，使其更专注于这些被忽略的关键区域。在三个基准数据集上的广泛实验证明，AttReg 的有效性，此外，在将 AttReg 整合到强大的基线 LMH 中时，我们的方法在 VQA-CP v2 基准数据集上实现了 60.00％的新最高准确度，与具有绝对性能增益的 7.01％。

Feb, 2021

视觉问答的焦点区域：何处寻找

本文提出一种方法，通过选择与基于文本的查询相关的图像区域来学习回答视觉问题。该方法在回答 ' 什么颜色 ' 等需要评估特定位置以及 ' 什么房间 ' 等需要选择性地识别信息图像区域的问题方面展示出显著的提升。我们的模型在 VQA 数据集上进行测试，这是目前为止最大的人工注释视觉问题回答数据集。

Nov, 2015

基于注意力监控挖掘的视觉驻留解释性视觉问答

本文展示了使用可用的区域描述和物体注释自动获取定位监督来有效地训练具有基于解释性的可视化问题回答 (VQA) 模型，并呈现了我们的模型的训练效果，表明其生成的视觉定位效果与手动注释的效果更接近，同时实现了最先进的 VQA 准确性。

Aug, 2018

走向透明化的 AI 系统：解释视觉问答模型

该论文探讨使用引导反向传播和遮挡等可视化技术，解释视觉问答（VQA）模型的工作过程，并发现即使没有显式注意机制，VQA 模型有时也会隐含地关注图像中的相关区域和问题中的适当单词。

Aug, 2016