视觉问答的焦点区域：何处寻找

CVPRNov, 2015

Where To Look: Focus Regions for Visual Question Answering

Kevin J. Shih, Saurabh Singh, Derek Hoiem

TL;DR本文提出一种方法，通过选择与基于文本的查询相关的图像区域来学习回答视觉问题。该方法在回答 ' 什么颜色 ' 等需要评估特定位置以及 ' 什么房间 ' 等需要选择性地识别信息图像区域的问题方面展示出显著的提升。我们的模型在 VQA 数据集上进行测试，这是目前为止最大的人工注释视觉问题回答数据集。

Abstract

We present a method that learns to answer visual questions by selecting image regions relevant to the text-based query. Our method exhibits significant improvements in answering questions such as "what color," wh

visual questions image regions text-based query vqa dataset human-annotated

发现论文，激发创造

用正确的图像区域回答问题：一种视觉关注正则化方法

本文提出一种名为 AttReg 的视觉关注正则化方法，用于更好地在 VQA 中进行视觉基础。AttReg 首先确定对于问题回答而言关键的图像区域，然后利用基于掩蔽的学习方案来规范化视觉关注，使其更专注于这些被忽略的关键区域。在三个基准数据集上的广泛实验证明，AttReg 的有效性，此外，在将 AttReg 整合到强大的基线 LMH 中时，我们的方法在 VQA-CP v2 基准数据集上实现了 60.00％的新最高准确度，与具有绝对性能增益的 7.01％。

Feb, 2021

医学视觉问答中的本地化问题

文章提出了一种针对医学图像的视觉问答模型，该模型能够考虑上下文并回答关于图片区域的问题，实验结果表明该方法在三个数据集上优于现有方法。

Jul, 2023

视觉问答中的人类注意力：人类和深度网络是否注视相同的区域？

我们设计了多个游戏化的新颖注意力注释界面，要求对象放大模糊图像的区域以回答有关图像的问题，进而在 Visual Question Answering（VQA）中进行了大规模的人类注意力研究，引入了 VQA-HAT（Human Attention）数据库集合，将最先进的 VQA 模型生成的注释地图与人类注意力进行了定性（通过可视化）和定量（通过等级相关性）的评估，总体而言，我们的实验表明，目前 VQA 中的注意力模型似乎没有关注与人类相同的区域。

Jun, 2016

自我批判推理用于稳健的视觉问答

该研究提出了自我批判的训练目标，通过确定人类视觉 / 文本解释或仅来自问题和答案中的重要单词的具有影响力的图像区域，确保正确答案的视觉解释与竞争答案候选者相比更匹配，以解决 Visual Question Answering 系统在训练数据上捕捉表面统计相关性的问题。应用于 VQA-CP 数据集，使用文本解释获得 49.5％，使用自动注释区域获得 48.5％，在 VQA 泛化任务中达到了最新的技术水平。

May, 2019

走向透明化的 AI 系统：解释视觉问答模型

该论文探讨使用引导反向传播和遮挡等可视化技术，解释视觉问答（VQA）模型的工作过程，并发现即使没有显式注意机制，VQA 模型有时也会隐含地关注图像中的相关区域和问题中的适当单词。

Aug, 2016

REVIVE: 基于知识的视觉问答中区域视觉表达的重要性

研究表明视觉表征在基于知识的视觉问答（VQA）中具有重要意义，特别是物体区域信息的利用可以显著提高系统性能。作者提出了一种名为 REVIVE 的新型基于知识的 VQA 方法，该方法旨在利用物体区域的显式信息不仅在知识检索阶段，而且在答案模型中提高系统性能，并在标准 OK-VQA 数据集上实现了最新的最高性能。

Jun, 2022

面向视觉问答的聚焦动态注意力模型

本文提出了一种基于 Focused Dynamic Attention 模型的视觉问答方法，该方法通过结合全局特征和重点区域信息，能够更好地处理细粒度信息和语言语义，进而提高了视觉问答的表现。

Apr, 2016

视觉问答模型中显式偏差的发现

本研究利用规则挖掘算法对视觉问答模型中的数据偏差进行分析，并从中发现了一些亮点和异常行为。

Nov, 2018

视觉问答系统的注意力分析

本文结合注意力机制提出了两种最先进的视觉问答方法，并通过可视化和分析它们的估计注意力图来研究它们的鲁棒性和缺点。研究表明两种方法对特征敏感，同时对于计数和多对象相关的问题表现不佳。该研究结果和分析方法可帮助研究人员识别重要的挑战，以改进自己的 VQA 系统。

Oct, 2018

视觉问答：方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016