定位再生成: 通过边界框桥接视觉和语言进行场景文本VQA
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文介绍了一种新的方法来生成自然语言的解释,解释视觉问答(VQA)问题的答案,其包含图像中支持答案的证据,使用了场景图中的实体注释和VQA模型生成的关注图来证明。在Visual Genome(VG)数据集上运行算法,并进行内部用户研究,证明了我们的方法的有效性。
Feb, 2019
本文介绍了一个新数据集,即ST-VQA,旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务,需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文本识别模块的缺陷,同时提出一系列基线方法。
May, 2019
提出了一种视觉和文本问题回答(VTQA)模型,该模型使用自动生成的段落式标题来丰富图像的信息以帮助正确回答视觉问题,并使用交叉融合和基于强化学习的编码器解码器模型实现跨模态融合。模型在Visual Genome数据集上进行训练,显著提高了现有模型的性能。
Jun, 2019
本文提出了一种基于局部信息的答案预测网络,即LaAP-Net,用于解决现有基于光学字符识别(OCR)或固定词汇的文本VQA系统中的局限性,其中定位信息得到了更好的利用。此外,提出了一种多模式融合技术,即COR,为定位任务提供了额外的上下文信息。LaAP-Net在三个基准数据集上的表现比现有方法都要好。
Oct, 2020
本文提出了一个用于处理零样本多语言场景文本视觉问答的框架,该框架首先引入了更加通用的MUST-VQA,在受限环境下进行了两种评估场景的讨论,并证明了模型在零样本环境下的可行性,同时进一步展示了将多语言模型适应于STVQA任务的有效性。
Sep, 2022
TextVQA问题解答中,我们提出了一种名为Separate and Locate (SaL)的新方法,该方法通过探索文本的上下文线索和设计空间位置嵌入来构建OCR文本之间的空间关系,从而在TextVQA和ST-VQA数据集上获得了较好的准确性改进,并且无需任何预训练任务。
Aug, 2023
对于图像中的问题,通过使用语言指导(LG)如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确;提出了一种多模态框架,使用CLIP和BLIP模型通过A-OKVQA、Science-QA、VSR和IconQA数据集的多选问题回答任务进行了基准测试,语言指导使得CLIP的性能提高了7.6%,BLIP-2的性能提高了4.8%;使用所提出的语言指导在Science-QA、VSR和IconQA数据集上也观察到了持续的性能改进。
Oct, 2023
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023
本研究针对现有基于文本的视频问答(TextVideoQA)存在的决策不透明和对场景文本识别的强依赖问题,提出了“场景文本定位”的新思路。我们通过提出T2S-QA模型来实现这一目标,该模型采用弱监督的场景文本定位策略,显著提升了问答的可解释性和效果。研究结果表明,尽管T2S-QA表现优异,但仍有很大的提升空间,尤其是在场景文本识别的准确性方面。
Sep, 2024