从识别到认知：视觉常识推理

CVPRNov, 2018

From Recognition to Cognition: Visual Commonsense Reasoning

Rowan Zellers, Yonatan Bisk, Ali Farhadi, Yejin Choi

TL;DR该研究论文旨在推进计算机视觉模型的视觉常识推理能力。研究者针对这一目标，提出一项包含 290k 多选题的新数据集 VCR，并使用基于对抗匹配的方法进行添加问题。通过引入新的推理引擎 - Recognition to Cognition 网络（R2C），该文章对计算机视觉模型的性能进行了分析，并提出未来研究的方向。

Abstract

Visual understanding goes well beyond object recognition. With one glance at an image, we can effortlessly imagine the world beyond the pixels: for instance, we can infer people's actions, goals, and mental states. While this task is easy for humans, it is tremendously difficult for today's vision systems, requiring higher-order cognition and commonsense rea

visual commonsense reasoning vcr dataset adversarial matching recognition to cognition networks (r2c)high-quality problems

发现论文，激发创造

基于注意力机制的认知层场景理解

本文介绍了一个新的并行注意力的认知 VCR 网络（PAVCR 网络），该网络能够在推理过程中进行視覺和文本信息的融合，以及并行编码语义信息，从而捕捉认知级别推理所需的丰富信息，并提供了对视觉常识推理的直观解释。大量实验表明，所提出的模型比现有方法在基准 VCR 数据集上均有显着的改进。

Apr, 2022

使用动态工作记忆的认知视觉常识推理

本文提出了一种基于动态工作内存的认知视觉常识推理网络，通过存储句子之间积累的常识来提供先验知识进行推理，可以显著改进现有方法，在视觉常识推理方面提供了直观的解释。

Jul, 2021

视觉推理与基础合理性：看、记住和推理

该研究旨在通过模仿人类视觉问题解决中的 “看、记住、推理” 模式，引入基于视觉输入的原理来整合低级视觉能力，使现有的大型语言模型能够在视觉推理问题上取得竞争性表现。

Jun, 2023

在视觉对话中运用多结构常识知识进行推理

本文提出了一种基于多结构的常识知识的推理模型，通过句子级事实和图级事实表示外部知识，通过图形交互和变压器融合捕获相关的知识并将其融入视觉和语义特征中，已在 VisDial v1.0 和 VisDialCK 数据集上取得了有效的性能优于比较方法。

Apr, 2022

无强先验条件下的视觉推理学习

通过条件批量归一化对 CLEVR 视觉推理基准进行训练，我们的方法在人工视觉推理方面实现了最先进的成果，这表明带有适当条件的通用架构可以有效地学习进行视觉推理。

Jul, 2017

CommonsenseVIS: 自然语言模型的常识推理能力可视化与理解

利用外部常识知识库将模型行为与人类知识对齐，并通过多层次可视化和交互式模型探索和编辑，帮助自然语言处理专家在不同场景中对模型的概念关系推理进行系统且可扩展的可视化分析。

Jul, 2023

基于知识库的图像视觉常识发现

本研究通过借鉴自然语言处理中常识知识库 ConceptNet 的方法，系统定义了视觉常识的各种类型，并提出了一种新的任务 - 视觉常识发现（VCD），旨在提取图像中不同对象包含的细粒度常识。通过构建包括超过 10 万张图像和 1400 万个对象 - 常识对的数据集（VCDD），并提出了一种将视觉 - 语言模型与指令调整相结合的生成模型（VCDM），其在 VCD 中表现出色，尤其在隐含常识发现方面优于 GPT-4V。VCD 的价值进一步得到了两个下游任务的应用验证，包括视觉常识评估和视觉问答。数据和代码在 GitHub 上可获得。

Feb, 2024

从表示到推理：面向视频问答的证据与常识推理

为了深化视频理解，包含描述、证据推理和常识推理等四类问题，我们提出了因果 - 视频问答任务及两步解决方案，发现最新 VideoQA 方法在描述方面表现强而在推理方面表现弱，希望 Causal-VidQA 能够引导视频理解研究从表示学习向深度推理发展。

May, 2022

ViCor：用大型语言模型桥接视觉理解和常识推理

我们的研究工作探索了预训练的视觉语言模型（VLM）和大型语言模型（LLM）在视觉常识推理（VCR）中的协同能力。我们将 VCR 问题分为视觉常识理解（VCU）和视觉常识推断（VCI）两个方面。在 VCU 方面，预训练的 VLM 展示出强大的跨数据集泛化能力。然而，在 VCI 方面，VLM 面临困难。我们提出了名为 ViCor 的协作方法，在 VCI 中通过 LLM 主动引导 VLM 集中关注和收集相关的视觉元素来支持潜在的常识推断。我们的方法在两个 VCR 基准数据集上得到了评估，并且在不需要领域内监督微调的所有其他方法之上取得了优越的表现。

Oct, 2023

基于知识路线的视觉问答推理：深度表示嵌入的挑战

提出了一种基于知识路线的视觉问题推理 VQA 模型评估数据集，通过控制程序来选择自然场景图和外部知识库中的三元组，强制进行多步推理，并平衡答案分布，以解决现有的 VQA 模型的浅层相关问题和注释程序不均衡的问题。

Dec, 2020