研究如何使用图像和相关描述文本生成合成的 Q-A 对集合,而无需人工标注,同时利用空间金字塔图像块作为一种简单而有效的 VQA 模型替代方案。
Dec, 2020
该文介绍了一种新的方法来提高视觉问题回答的性能,该方法利用深度学习的技术,结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述,并利用在线梯度方法自动确定与问题相关的描述来训练模型,实验结果表明,本方法取得了视觉问题回答领域的最新成果。
Jun, 2019
提出了一种视觉和文本问题回答(VTQA)模型,该模型使用自动生成的段落式标题来丰富图像的信息以帮助正确回答视觉问题,并使用交叉融合和基于强化学习的编码器解码器模型实现跨模态融合。模型在 Visual Genome 数据集上进行训练,显著提高了现有模型的性能。
通过在视觉问题回答(VQA)过程中利用图像描述作为中介步骤,建立零样本设置,探索了零样本 VQA 的影响。比较了最先进的图像描述模型对于不同问题类型的 VQA 性能在结构和语义上的影响,并在 VQA 过程中提出了一种简单高效的问题驱动图像描述方法,通过提取问题关键词、为每个图像 - 问题对生成描述,并将问题驱动的描述传输到大型语言模型中。研究发现利用图像描述和大型语言模型的能力,在零样本设置下能够实现竞争性的 GQA 性能。
Apr, 2024
本文提出了逆向视觉问答(iVQA)问题,并探讨其作为视觉语言理解基准的适用性。我们提出了一种 iVQA 模型,可以逐渐调整其注意力焦点,以便更好地理解给定的图像。实验结果表明,我们的模型可以生成多样性、语法正确且内容相关的问题,与给定的答案相匹配。
Oct, 2017
本文研究了利用视觉问题对图像进行弱监督的方法,提出了两种简单但有效的修改标准视觉问答模型的方法,并展示了基于这些方法的数据增强策略在标准 VQA 基准测试上的 7.1% 改进。
Apr, 2017
提出了 Invertible Question Answering Network (iQAN) 框架,该框架通过对 VQA 和 VQG 任务同时训练,利用图像中的问题和答案之间的互补关系,使用对应的参数共享方案和正则项来明确 Q,A 之间的依赖关系,并且明确地指导训练过程。通过在 CLEVR 和 VQA2 数据集上的评估,我们的 iQAN 在基线上提高了 VQA 的准确性,并表明 iQAN 的双学习框架可以推广到其他 VQA 体系结构,并持续改进结果。
Sep, 2017
本文提出了一种模型,能够从单个图像中生成具有不同类型的视觉问题。通过采样最可靠的问题类型来自动生成问,该方法在两个真实世界数据集上的实验结果表明,我们的模型在正确性和多样性方面都优于最强基线。
Dec, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文提出自由和开放的视觉问答(VQA)任务,旨在通过自然语言问题回答图片问题,涉及到图片理解、多种语言的回答以及数据集和评价方法。
May, 2015