TGIF-QA：关于视觉问答中时空推理的研究

Apr, 2017

TGIF-QA：关于视觉问答中时空推理的研究

TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering

Yunseok Jang, Yale Song, Youngjae Yu, Youngjin Kim, Gunhee Kim

TL;DR本文提出了三个特别设计用于视频VQA的新任务，推出一个新的大型数据集TGIF-QA，并提出了一种利用空间和时间关注的双LSTM方法，证明其在经验评估中的有效性。

Abstract

Vision and language understanding has emerged as a subject undergoing intense study in Artificial Intelligence. Among many tasks in this line of research, visual question answering (VQA) has been one of the most successful ones, where the goal is to learn a model that understands visua

发现论文，激发创造

面向视觉问答的聚焦动态注意力模型

本文提出了一种基于 Focused Dynamic Attention 模型的视觉问答方法，该方法通过结合全局特征和重点区域信息，能够更好地处理细粒度信息和语言语义，进而提高了视觉问答的表现。

Apr, 2016

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

视觉问答算法分析

本文分析了现有的视觉问答（VQA）算法，并使用一个新数据集进行了评估，提出了新的评估方案来补偿过度展示的问题类型，并研究了不同算法的优缺点和注意力机制的作用。

Mar, 2017

视觉问答最近进展综述

该论文综述了不同方法来解决视觉问答的问题，特别是描述了各种算法提取图像特征和文本特征的方法，并讨论了评估VQA模型的实验，并报告了它们在各种数据集上的表现。

Sep, 2017

TVQA+: 视频问答的时空引用

该研究针对视频问答这一任务，提出增加bounding boxes数据集，以此为基础构建了STAGE框架，在空间和时间域上对视频进行处理，以便回答关于视频的自然语言问题，并展示了实验结果和可视化。

Apr, 2019

OK-VQA：需要外部知识的视觉问答基准

本文提出了名为OK-VQA的基于知识的视觉问答基准，要求使用外部知识资源来回答问题，该任务是多样的、困难的和大型的，与以前的基于知识的VQA数据集相比具有更高的难度。

May, 2019

基于粗到细的视觉问答推理

本文提出了一种新的推理框架来填补VQA任务中视觉特征和语义线索之间的语义鸿沟，实现了特征和谓词的有效联合学习，并在三个大规模数据集上实现了其他最先进方法无法比拟的准确度，同时还提供了一种可解释的方式来理解深度神经网络在预测答案时的决策。

Oct, 2021

用于视频问答的结构化双流注意力网络

本文提出了一种结构化的双流注意力网络（STA）来解决视频问答（VQA），该网络可以识别视频中的长时空结构和文本特征，并将视觉与文本融合以提供准确的答案，在大规模视频QA数据集TGIF-QA上实验表明，STA可将Action，Trans，TrameQA和Count任务的最佳效果提高13.0％，13.5％，11.0％和0.3％，在Action，Trans，TrameQA任务上也比最佳竞争对手提高4.1％，4.7％和5.1％。

Jun, 2022

语言引导的视觉问答：使用知识丰富的提示提升多模态语言模型

对于图像中的问题，通过使用语言指导（LG）如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确；提出了一种多模态框架，使用CLIP和BLIP模型通过A-OKVQA、Science-QA、VSR和IconQA数据集的多选问题回答任务进行了基准测试，语言指导使得CLIP的性能提高了7.6%，BLIP-2的性能提高了4.8%；使用所提出的语言指导在Science-QA、VSR和IconQA数据集上也观察到了持续的性能改进。

Oct, 2023

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对VQA数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将VQA推广到多模态问答，探索与VQA相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023