揭示 VQA 中视觉定位方法的全部潜力
通过形式化的理论框架 “Visually Grounded Reasoning”,本研究揭示了在 VQA 中视觉定位的重要性,指出基于深度神经网络的 VQA 模型通过捷径学习(shortcut learning)绕过视觉定位的情况,并提出了用于测试视觉定位的 Out-of-Distribution 测试方法以及改进性能的方法。
Jun, 2024
为解决当前 VQA 方法依赖于数据集偏见和统计相关性的问题,提出了利用视觉提示进行 VQA 模型性能优化的方法,但实现的改进并不是由于视觉提示的影响,而是正则化效应,为此提出了一种不需要外部数据注释的简单正则化方案。
Apr, 2020
本论文中,我们使用信息检索的方式来考虑 VQA 一类问题。我们提出了一种新的系统,利用图计算方法通过图像的场景图和问题中的区域表达式直接实现 VG,实验结果表明,我们的系统在 VG 性能上表现最佳。
Nov, 2022
本文提出了一种新的 VG 度量标准,称为 “Faithful and Plausible Visual Grounding”(FPVG),可以衡量一个系统是否能正确识别与问题相关的目标,并在回答问题时可靠地使用这些目标信息,该方法可以用于评估和分析各种 VQA 模型设计。
May, 2023
本文展示了使用可用的区域描述和物体注释自动获取定位监督来有效地训练具有基于解释性的可视化问题回答 (VQA) 模型,并呈现了我们的模型的训练效果,表明其生成的视觉定位效果与手动注释的效果更接近,同时实现了最先进的 VQA 准确性。
Aug, 2018
我们研究了视觉基础的视频问答,以回应利用预训练技术进行视频语言理解的新趋势。通过迫使视觉语言模型(VLMs)回答问题并同时提供视觉证据,我们试图确定这些技术的预测在多大程度上基于相关视频内容,而非语言或无关的视觉上下文的虚假相关性。通过构建具有 10.5K 时间定位(或位置)标签的 NExT-GQA,我们审查了各种先进的 VLMs。通过事后注意分析,我们发现这些模型在证实答案方面表现较弱,尽管它们在问答性能方面表现强劲。这暴露了这些模型在作出可靠预测方面的严重局限性。为了解决这个问题,我们进一步探索并建议通过高斯掩模优化和跨模态学习的视频定位机制。使用不同的骨干结构进行的实验证明,这种定位机制改善了视频定位和问答的效果。我们发布了我们的数据集和代码。通过这些努力,我们旨在推动在 VQA 系统中部署 VLMs 的可靠性。
Sep, 2023
该研究介绍了用于回答图像问题的 VizWiz-VQA-Grounding 数据集,并分析了当前 SOTA 算法在识别相关视觉证据方面的不足,尤其是在处理占整个图像一小部分的高质量图像以及需要文本识别技能的视觉问题方面。
Feb, 2022
通过物体级别的 grounding,在图像中建立了文本描述与图像区域的语义联系,提出了一种新型维度的视觉问答任务,并使用多个基线模型和带有空间注意力机制的 LSTM 模型来解决该任务。
Nov, 2015
该论文提出了一个基于 Transformer 的弱监督环境下的视觉问答定位方法,该方法通过将每个视觉令牌分组并利用自注意力来遮蔽那些胶囊,从而改善了检测物品能力限制的问题。经过实验证明,该方法提出了新的最先进结果。
Jul, 2022
本文提出了一个新的基准数据集 SK-VG,其中图像内容和指代表达不足以确定目标对象,迫使模型在长篇场景知识上具备推理能力。我们提出了两种方法来接受三元类型的输入,前者在图像查询交互之前将知识嵌入图像特征,后者利用语言结构来辅助计算图像文本匹配。通过大量实验证明了所提方法的可行性,并展示了他们取得的有希望的结果,但仍有改进的空间,包括性能和可解释性。
Jul, 2023