关于视觉定位在 VQA 中的作用
视觉问题回答中的视觉定位方法试图通过增强模型对问题相关视觉信息的依赖性来提高视觉问题回答的性能。然而,在处理大规模视觉问题回答中常见的不完美图像表示时,这种对应视觉信息的假设是存在缺陷的,其与预期的真实内容之间的偏差导致了这些方法的潜在优势被严重低估,当前的评估方案存在问题。
Jan, 2024
本论文中,我们使用信息检索的方式来考虑 VQA 一类问题。我们提出了一种新的系统,利用图计算方法通过图像的场景图和问题中的区域表达式直接实现 VG,实验结果表明,我们的系统在 VG 性能上表现最佳。
Nov, 2022
本文提出了一种新的 VG 度量标准,称为 “Faithful and Plausible Visual Grounding”(FPVG),可以衡量一个系统是否能正确识别与问题相关的目标,并在回答问题时可靠地使用这些目标信息,该方法可以用于评估和分析各种 VQA 模型设计。
May, 2023
本文展示了使用可用的区域描述和物体注释自动获取定位监督来有效地训练具有基于解释性的可视化问题回答 (VQA) 模型,并呈现了我们的模型的训练效果,表明其生成的视觉定位效果与手动注释的效果更接近,同时实现了最先进的 VQA 准确性。
Aug, 2018
本研究的关键词是开放式词汇学习、视觉定位、新概念、语言描述和对象检测。通过引入新颖和具有挑战性的任务,即开放式视觉定位与开放式短语定位,这项研究的目标是在语言描述和新对象的定位之间建立联系。我们提出了一种新的框架来加强对新类别的识别,并增强视觉和语言信息之间的对齐。经过广泛的实验验证,我们的提议框架在开放式视觉定位任务上始终达到了最先进的性能。
Oct, 2023
为解决当前 VQA 方法依赖于数据集偏见和统计相关性的问题,提出了利用视觉提示进行 VQA 模型性能优化的方法,但实现的改进并不是由于视觉提示的影响,而是正则化效应,为此提出了一种不需要外部数据注释的简单正则化方案。
Apr, 2020
通过去噪扩散建模的语言引导扩散框架(LG-DVG)提出了一种逐步推理的视觉定位方法,可持续改进查询 - 区域匹配,在跨模态对齐任务中以生成方式解决视觉定位,并在多个数据集上验证其超凡性能。
Aug, 2023
本文提出了一个新的基准数据集 SK-VG,其中图像内容和指代表达不足以确定目标对象,迫使模型在长篇场景知识上具备推理能力。我们提出了两种方法来接受三元类型的输入,前者在图像查询交互之前将知识嵌入图像特征,后者利用语言结构来辅助计算图像文本匹配。通过大量实验证明了所提方法的可行性,并展示了他们取得的有希望的结果,但仍有改进的空间,包括性能和可解释性。
Jul, 2023
该研究介绍了用于回答图像问题的 VizWiz-VQA-Grounding 数据集,并分析了当前 SOTA 算法在识别相关视觉证据方面的不足,尤其是在处理占整个图像一小部分的高质量图像以及需要文本识别技能的视觉问题方面。
Feb, 2022
本文提出一个框架来单独评估视觉问答(VQA)中的推理方面,同时引入一种新颖的自上而下校准技术,以使模型即使具有不完美的感知也能回答推理问题,通过在具有挑战性的 GQA 数据集上进行深入的分离比较,可以了解到众所周知的 VQA 模型参与的见解以及任务。
Jun, 2020