如何证明？双重视觉 - 语言交互的答案定位

CVPRJun, 2022

如何证明？双重视觉 - 语言交互的答案定位

Tell Me the Evidence? Dual Visual-Linguistic Interaction for Answer Grounding

Junwen Pan, Guanlin Chen, Yi Liu, Jiexiang Wang, Cheng Bian...

TL;DR本文提出了一种名为 DaVI 的新型统一端到端框架，具有语言回答和视觉定位的能力，引入了两种视觉 - 语言交互机制来解决答案定位问题，并在 2022 年 VizWiz 大挑战中获得了第一名。

Abstract

answer grounding aims to reveal the visual evidence for visual question answering (VQA), which entails highlighting relevant positions in the image when answering questions about images. Previous attempts typically tackle this problem using pretrained object detectors, but without the

answer grounding visual question answering davi visual-linguistic interaction mechanisms vizwiz grand challenge

发现论文，激发创造

为视障人士提问的视觉问题提供答案

该研究介绍了用于回答图像问题的 VizWiz-VQA-Grounding 数据集，并分析了当前 SOTA 算法在识别相关视觉证据方面的不足，尤其是在处理占整个图像一小部分的高质量图像以及需要文本识别技能的视觉问题方面。

Feb, 2022

通过视觉语言验证和迭代推理来改善视觉定位

本研究提出了一种基于 transformer 的视觉定位框架，通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位，并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。

Apr, 2022

可以相信你的回答吗？基于视觉的视频问答

我们研究了视觉基础的视频问答，以回应利用预训练技术进行视频语言理解的新趋势。通过迫使视觉语言模型（VLMs）回答问题并同时提供视觉证据，我们试图确定这些技术的预测在多大程度上基于相关视频内容，而非语言或无关的视觉上下文的虚假相关性。通过构建具有 10.5K 时间定位（或位置）标签的 NExT-GQA，我们审查了各种先进的 VLMs。通过事后注意分析，我们发现这些模型在证实答案方面表现较弱，尽管它们在问答性能方面表现强劲。这暴露了这些模型在作出可靠预测方面的严重局限性。为了解决这个问题，我们进一步探索并建议通过高斯掩模优化和跨模态学习的视频定位机制。使用不同的骨干结构进行的实验证明，这种定位机制改善了视频定位和问答的效果。我们发布了我们的数据集和代码。通过这些努力，我们旨在推动在 VQA 系统中部署 VLMs 的可靠性。

Sep, 2023

Visual7W：基于图像的问答系统

通过物体级别的 grounding，在图像中建立了文本描述与图像区域的语义联系，提出了一种新型维度的视觉问答任务，并使用多个基线模型和带有空间注意力机制的 LSTM 模型来解决该任务。

Nov, 2015

视频问答的等变性和不变性基础

视频问答是回答关于视频的自然语言问题的任务。本文提出了一种自我解释的框架 EIGV，通过同时强制性地处理问题关键线索和忽略问题不相关的信息，将问题的答案与环境信息区分开来，明确呈现出视频和语言之间的相互作用，并且在三个基准数据集上进行的广泛实验证明了 EIGV 的优越性。

Jul, 2022

基于注意力监控挖掘的视觉驻留解释性视觉问答

本文展示了使用可用的区域描述和物体注释自动获取定位监督来有效地训练具有基于解释性的可视化问题回答 (VQA) 模型，并呈现了我们的模型的训练效果，表明其生成的视觉定位效果与手动注释的效果更接近，同时实现了最先进的 VQA 准确性。

Aug, 2018

语言引导扩散模型用于视觉定位

通过去噪扩散建模的语言引导扩散框架（LG-DVG）提出了一种逐步推理的视觉定位方法，可持续改进查询 - 区域匹配，在跨模态对齐任务中以生成方式解决视觉定位，并在多个数据集上验证其超凡性能。

Aug, 2023

VQA 疗法：通过视觉参考答案探索答案差异

视觉问答是一项关于预测图像问题答案的任务，本文引入了第一个数据集 VQAAnswerTherapy，每个视觉问题中的唯一答案都有对应的视觉依据，我们提出了两个新问题，即预测视觉问题是否有唯一答案依据以及定位所有答案依据。通过对现代算法进行基准测试，展示了它们在这些新问题上的成功和困难。

Aug, 2023

iVQA: 反向视觉问答

本文提出了逆向视觉问答（iVQA）问题，并探讨其作为视觉语言理解基准的适用性。我们提出了一种 iVQA 模型，可以逐渐调整其注意力焦点，以便更好地理解给定的图像。实验结果表明，我们的模型可以生成多样性、语法正确且内容相关的问题，与给定的答案相匹配。

Oct, 2017

视频问答的不变基础

使用一种新的学习框架，稳定视频问答模型中的非关键信息，保留关键信息，提高模型推理能力。

Jun, 2022