视觉问答的组合记忆

Nov, 2015

Compositional Memory for Visual Question Answering

Aiwen Jiang, Fang Wang, Fatih Porikli, Yi Li

TL;DR本文提出了一种直接模拟语言和所有可能的本地图像补丁之间的时态动态的端到端方法，使用注意机制将与单词相关的特征和多个本地补丁上可用的特征融合在一起，并将融合的信息进一步结合生成动态信息，最终通过标准问题回答模块和上下文视觉信息和语言信息一起完成问题回答。

Abstract

visual question answering (VQA) emerges as one of the most fascinating topics in computer vision recently. Many state of the art methods naively use holistic visual features with language features into a Long Sho

发现论文，激发创造

分析视觉问答模型的行为

本文研究了基于深度学习模型的视觉问答模型，发现现有模型的准确率在60-70％之间，且本文提出系统分析这些模型行为的方法，发现这些模型存在缺点，包括不够全面、容易得出错误答案和不易更正的问题。

Jun, 2016

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

图形化结构表示用于视觉问题回答

本文提出通过建立基于场景信号和问题信息的图结构，应用深度神经网络分析问题的方法来提升视觉问答（VQA）的性能，相比于基于CNN/LSTM的VQA方法，本方法获得了显著的改善，其准确性从71.2％提高到74.4％，在不同的“平衡”场景中的准确性则提高了4.4％。

Sep, 2016

在视觉问答中提升图像理解的作用：让 VQA 中的 V 更有意义

该研究通过收集相关的图像，用于构建一个平衡的数据集（VQA v2.0），并在此基础上比较现有的 VQA 模型的表现，发现这些模型都受到了语言先验的影响。此外，该研究还提出了一种可解释性模型，它不仅可以回答问题，而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。

Dec, 2016

视觉问答算法分析

本文分析了现有的视觉问答（VQA）算法，并使用一个新数据集进行了评估，提出了新的评估方案来补偿过度展示的问题类型，并研究了不同算法的优缺点和注意力机制的作用。

Mar, 2017

TGIF-QA：关于视觉问答中时空推理的研究

本文提出了三个特别设计用于视频VQA的新任务，推出一个新的大型数据集TGIF-QA，并提出了一种利用空间和时间关注的双LSTM方法，证明其在经验评估中的有效性。

Apr, 2017

C-VQA: Visual Question Answering (VQA) v1.0 数据集的组合拆分

本文介绍了一个新的视觉问答问题设置，称为组合VQA（Compositional VQA）。为了便于在此设置下开发模型，我们提出了一个新的VQA数据集的组合拆分。最后，我们在这个新设置下评估了几个现有的VQA模型，并显示这些模型的性能比原始VQA设置下降了显著的量。

Apr, 2017

利用动态记忆网络结合外部知识回答开放式视觉问题

本文提出了一种基于动态记忆网络和外部知识库的VQA算法，通过对外部知识的检索和动态记忆网络对知识和图像的关注与推理，有效地回答包括开放领域问题在内的更复杂问题，并在视觉问答任务中取得了最好的表现。

Dec, 2017

生成式视觉问答

本研究探讨了一种新的方法来创建先进的视觉问答（VQA）模型，可以在时间泛化上产生成功的结果。通过利用来自VQAv2和MS-COCO数据集的图像和标题，通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的VQA模型的组合。该研究的目的是调查几个成功的VQA模型的稳健性，评估它们对未来数据分布的性能。分析模型架构，识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性，这些数据可以增强VQA模型的稳健性，使其未来的同行能够更好地适应时间分布的变化。

Jul, 2023

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对VQA数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将VQA推广到多模态问答，探索与VQA相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023