通过参考生成的段落标题来提高视觉问答能力

Jun, 2019

通过参考生成的段落标题来提高视觉问答能力

Improving Visual Question Answering by Referring to Generated Paragraph Captions

Hyounghun Kim, Mohit Bansal

TL;DR提出了一种视觉和文本问题回答（VTQA）模型，该模型使用自动生成的段落式标题来丰富图像的信息以帮助正确回答视觉问题，并使用交叉融合和基于强化学习的编码器解码器模型实现跨模态融合。模型在Visual Genome数据集上进行训练，显著提高了现有模型的性能。

Abstract

Paragraph-style image captions describe diverse aspects of an image as opposed to the more common single-sentence captions that only provide an abstract description of the image. These paragraph captions can hence contain substantial information of the image for tasks such as

发现论文，激发创造

基于属性和外部知识的图像字幕和视觉问答

本文提出了在成功的卷积神经网络-循环神经网络方法中加入高级概念的方法，并证明其在图像字幕和视觉问答中取得了显著的改进。该机制还可用于合并外部知识，特别是允许在图像中回答有关内容的问题，即使图像本身不能提供完整答案。

Mar, 2016

利用视觉问答进行图像字幕排名

本研究将视觉问题回答任务视为“特征提取”模块，提取图像和标题的表征，以此为基础对图像-标题进行排序并提出融合模型提高图像-标题匹配一致性的表现。实验发现，该模型在MSCOCO数据集上的字幕检索提高了7.1％，图像提取提高了4.4％。

May, 2016

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

Tell-and-Answer: 基于属性和字幕的可解释视觉问答

本研究提出将端到端的VQA分解为解释和推理两步，使用预训练的属性检测器和图像字幕模型提取图像属性和生成图像描述，然后使用推理模块将这些解释代替图像推断问题的答案。通过对热门VQA数据集进行实验，我们证明了该系统具备解释性和进一步提高解释质量的内在能力。

Jan, 2018

利用场景图和视觉注意力为视觉问答生成自然语言解释

本文介绍了一种新的方法来生成自然语言的解释，解释视觉问答（VQA）问题的答案，其包含图像中支持答案的证据，使用了场景图中的实体注释和VQA模型生成的关注图来证明。在Visual Genome（VG）数据集上运行算法，并进行内部用户研究，证明了我们的方法的有效性。

Feb, 2019

生成问题相关的字幕以帮助视觉问答

该文介绍了一种新的方法来提高视觉问题回答的性能，该方法利用深度学习的技术，结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述，并利用在线梯度方法自动确定与问题相关的描述来训练模型，实验结果表明，本方法取得了视觉问题回答领域的最新成果。

Jun, 2019

定位再生成: 通过边界框桥接视觉和语言进行场景文本VQA

提出了一个用于场景文本视觉问答的多模态框架，采用“先定位再生成”的范式，将空间边界框作为连接文本和视觉模态的桥梁，通过预先训练的语言模型增强绝对准确率。

Apr, 2023

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对VQA数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将VQA推广到多模态问答，探索与VQA相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023

GeReA: 针对基于知识的视觉问答的问题感知提示标题

我们提出了一种名为GeReA的生成-推理框架，利用视觉和语言信息激活了多模态大语言模型（MLLM）作为隐式知识引擎，用于基于知识的视觉问答，它在OK-VQA和A-OKVQA数据集上的测试准确率分别为66.5%和63.3%，超过了所有先前的最先进方法。

Feb, 2024

通过问题驱动的图像标题作为提示，增强视觉问答能力

通过在视觉问题回答（VQA）过程中利用图像描述作为中介步骤，建立零样本设置，探索了零样本VQA的影响。比较了最先进的图像描述模型对于不同问题类型的VQA性能在结构和语义上的影响，并在VQA过程中提出了一种简单高效的问题驱动图像描述方法，通过提取问题关键词、为每个图像-问题对生成描述，并将问题驱动的描述传输到大型语言模型中。研究发现利用图像描述和大型语言模型的能力，在零样本设置下能够实现竞争性的GQA性能。

Apr, 2024