利用胶囊网络进行弱监督的视觉问答

CVPRMay, 2021

利用胶囊网络进行弱监督的视觉问答

Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules

Aisha Urooj Khan, Hilde Kuehne, Kevin Duarte, Chuang Gan, Niels Lobo...

TL;DR本研究提出了一种视觉胶囊模块，并使用基于查询的胶囊特征选择机制，在仅使用 VQA 任务的情况下弱监督地培训相关视觉实体的基础上，演示了将该模块集成到现有的 VQA 系统中如何显著提高其性能，并在 CLEVR-Answers 基准测试和 GQA 上进行了评估。

Abstract

The problem of grounding vqa tasks has seen an increased attention in the research community recently, with most attempts usually focusing on solving this task by using pretrained object detectors. However, pre-t

vqa grounding weakly supervised learning visual capsule module textual cues

发现论文，激发创造

视觉语言 Transformer 中基于弱监督的 VQA grounding

该论文提出了一个基于 Transformer 的弱监督环境下的视觉问答定位方法，该方法通过将每个视觉令牌分组并利用自注意力来遮蔽那些胶囊，从而改善了检测物品能力限制的问题。经过实验证明，该方法提出了新的最先进结果。

Jul, 2022

WeaQA: 通过标题的弱监督使视觉问答更准确

研究如何使用图像和相关描述文本生成合成的 Q-A 对集合，而无需人工标注，同时利用空间金字塔图像块作为一种简单而有效的 VQA 模型替代方案。

Dec, 2020

基于注意力监控挖掘的视觉驻留解释性视觉问答

本文展示了使用可用的区域描述和物体注释自动获取定位监督来有效地训练具有基于解释性的可视化问题回答 (VQA) 模型，并呈现了我们的模型的训练效果，表明其生成的视觉定位效果与手动注释的效果更接近，同时实现了最先进的 VQA 准确性。

Aug, 2018

通过推理监督实现可解释的视觉问答

我们提出了一种新的视觉问答架构，通过常识推理作为监督信号来减轻模型在缺乏视觉基础的情况下的性能不足，并通过相似性损失将模型的视觉注意力引导到场景的重要元素，从而提高模型的视觉感知能力和性能。

Sep, 2023

基于 VQA 的视觉基础方法的负面案例分析

为解决当前 VQA 方法依赖于数据集偏见和统计相关性的问题，提出了利用视觉提示进行 VQA 模型性能优化的方法，但实现的改进并不是由于视觉提示的影响，而是正则化效应，为此提出了一种不需要外部数据注释的简单正则化方案。

Apr, 2020

Visual7W：基于图像的问答系统

通过物体级别的 grounding，在图像中建立了文本描述与图像区域的语义联系，提出了一种新型维度的视觉问答任务，并使用多个基线模型和带有空间注意力机制的 LSTM 模型来解决该任务。

Nov, 2015

弱监督视觉问答生成

本文提出一种弱监督视觉问答生成方法，从视觉信息和字幕中合成问答对，使用 ViLBERT 模型对其进行微调，实验结果在 VQA 数据集上表现显著优于其他先进技术。

Jun, 2023

弱监督视觉引导的关系感知实例细化

本研究提出了一种新的上下文感知弱监督学习方法，它将粗到细的物体细化和实体关系建模结合到一个两阶段深度网络中，以更准确地表述和匹配物体，并通过自我学习回归和关系分析来有效训练必要的分类方法。在 Flickr30K 和 ReferItGame 数据集上的广泛实验表明，本文所提出的弱强化框架比以前的方法具有更好的算法性能，Flickr30K 实体和 ReferItGame 数据集上的 Top-1 准确度分别达到 59.27％和 37.68％。

Mar, 2021

可以相信你的回答吗？基于视觉的视频问答

我们研究了视觉基础的视频问答，以回应利用预训练技术进行视频语言理解的新趋势。通过迫使视觉语言模型（VLMs）回答问题并同时提供视觉证据，我们试图确定这些技术的预测在多大程度上基于相关视频内容，而非语言或无关的视觉上下文的虚假相关性。通过构建具有 10.5K 时间定位（或位置）标签的 NExT-GQA，我们审查了各种先进的 VLMs。通过事后注意分析，我们发现这些模型在证实答案方面表现较弱，尽管它们在问答性能方面表现强劲。这暴露了这些模型在作出可靠预测方面的严重局限性。为了解决这个问题，我们进一步探索并建议通过高斯掩模优化和跨模态学习的视频定位机制。使用不同的骨干结构进行的实验证明，这种定位机制改善了视频定位和问答的效果。我们发布了我们的数据集和代码。通过这些努力，我们旨在推动在 VQA 系统中部署 VLMs 的可靠性。

Sep, 2023

揭示 VQA 中视觉定位方法的全部潜力

视觉问题回答中的视觉定位方法试图通过增强模型对问题相关视觉信息的依赖性来提高视觉问题回答的性能。然而，在处理大规模视觉问题回答中常见的不完美图像表示时，这种对应视觉信息的假设是存在缺陷的，其与预期的真实内容之间的偏差导致了这些方法的潜在优势被严重低估，当前的评估方案存在问题。

Jan, 2024