使用动态工作记忆的认知视觉常识推理
本文介绍了一个新的并行注意力的认知 VCR 网络(PAVCR 网络),该网络能够在推理过程中进行視覺和文本信息的融合,以及并行编码语义信息,从而捕捉认知级别推理所需的丰富信息,并提供了对视觉常识推理的直观解释。大量实验表明,所提出的模型比现有方法在基准 VCR 数据集上均有显着的改进。
Apr, 2022
该研究论文旨在推进计算机视觉模型的视觉常识推理能力。研究者针对这一目标,提出一项包含 290k 多选题的新数据集 VCR,并使用基于对抗匹配的方法进行添加问题。通过引入新的推理引擎 - Recognition to Cognition 网络(R2C),该文章对计算机视觉模型的性能进行了分析,并提出未来研究的方向。
Nov, 2018
此研究旨在通过提供合理的理由作为预测答案的原因,解释并回答视觉场景问题。尽管 Vision-Language Transformers 在表现上令人满意,但它们存在预训练效果有限、意外的语言偏见、模型架构受限和忽视重要的物体 - 标签相关性等缺点。因此,从数据集、评估指标和训练技巧等角度,本研究对于未来研究提出了一些方向,有望让研究人员重新审视 VCR 的直觉和目标,并帮助克服视觉推理中的挑战。
May, 2024
通过构建空间关系图并设计两种预训练任务,即目标位置回归和空间关系分类,本研究提出的方法在 VCR、VQA 和 NLVR 三个视觉与语言推理任务中取得了最先进的结果。
Nov, 2023
我们的研究工作探索了预训练的视觉语言模型(VLM)和大型语言模型(LLM)在视觉常识推理(VCR)中的协同能力。我们将 VCR 问题分为视觉常识理解(VCU)和视觉常识推断(VCI)两个方面。在 VCU 方面,预训练的 VLM 展示出强大的跨数据集泛化能力。然而,在 VCI 方面,VLM 面临困难。我们提出了名为 ViCor 的协作方法,在 VCI 中通过 LLM 主动引导 VLM 集中关注和收集相关的视觉元素来支持潜在的常识推断。我们的方法在两个 VCR 基准数据集上得到了评估,并且在不需要领域内监督微调的所有其他方法之上取得了优越的表现。
Oct, 2023
我们介绍了一种名为 Visual Caption Restoration(VCR)的新颖视觉 - 语言任务,该任务要求模型使用图像中的像素级提示准确恢复部分被遮挡的文本。我们开发了一个流程来生成用于 VCR 任务的合成图像,并构建了一个名为 VCR-Wiki 的数据集,该数据集包含来自维基百科的图像标题对,包括在易和难两个变体中的 211 万英文实体和 34.6 万中文实体。我们的结果表明,当前的视觉语言模型在 VCR 任务中明显落后于人类表现,仅对我们的数据集进行微调并没有显著改进。我们提供了 VCR-Wiki 数据集和数据构建代码,以便促进未来的研究。
Jun, 2024
通过引入事件感知预训练辅助任务和跨模态链接,并使用指令式提示和任务特定适配器来提高大型语言模型在视觉常识推理任务上的效果。
Apr, 2024
本文介绍了一个基于 cognitive psychology 和 neuroscience 的撷图,和相应的 deep learning 架构,用来解决视觉和逻辑推理以及记忆方面的问题。架构表现不错且易扩展,是目前解决此问题的有力之选。
Mar, 2018
我们提出了一种新的视觉问答架构,通过常识推理作为监督信号来减轻模型在缺乏视觉基础的情况下的性能不足,并通过相似性损失将模型的视觉注意力引导到场景的重要元素,从而提高模型的视觉感知能力和性能。
Sep, 2023
本研究通过借鉴自然语言处理中常识知识库 ConceptNet 的方法,系统定义了视觉常识的各种类型,并提出了一种新的任务 - 视觉常识发现(VCD),旨在提取图像中不同对象包含的细粒度常识。通过构建包括超过 10 万张图像和 1400 万个对象 - 常识对的数据集(VCDD),并提出了一种将视觉 - 语言模型与指令调整相结合的生成模型(VCDM),其在 VCD 中表现出色,尤其在隐含常识发现方面优于 GPT-4V。VCD 的价值进一步得到了两个下游任务的应用验证,包括视觉常识评估和视觉问答。数据和代码在 GitHub 上可获得。
Feb, 2024