通过诱导符号空间进行可解释的视觉推理

ICCVNov, 2020

通过诱导符号空间进行可解释的视觉推理

Interpretable Visual Reasoning via Induced Symbolic Space

Zhonghao Wang, Kai Wang, Mo Yu, Jinjun Xiong, Wen-mei Hwu...

TL;DR该研究旨在通过目标 - 中心的组合式注意力模型（OCCAM）和符号概念空间，从与图像相关的问题 - 答案对中识别概念和它们的分层关系，并实现一个可解释的模型。该模型通过设计新的 OCCAM 框架执行视觉推理任务，并提出一种方法，从对象的视觉特征和问题词之间的注意力模式中使用线索，诱导对象和关系的概念。结果表明，OCCAM 在无需人类注释的功能程序的情况下取得了最新的技术水平，并且所诱导的概念精确而充足，在视觉特征或在引入的符号概念空间中表示的对象上都能够取得相当的性能。

Abstract

We study the problem of concept induction in visual reasoning, i.e., identifying concepts and their hierarchical relationships from question-answer pairs associated with images; and achieve an →

concept induction visual reasoning interpretable model object-centric compositional attention model (occam)symbolic concept space

发现论文，激发创造

物体为中心的关系抽象的系统性视觉推理

该研究描述了 Object-Centric Relational Abstraction（OCRA）模型，其结合了具有抽象表征能力的目标提取和针对关系的归纳偏差，能够从图像输入中提取显式的对象和抽象关系，实现了关于复杂视觉展示的强系统化概括。

Jun, 2023

以对象为中心的视觉推理诊断

该研究旨在通过评估不同模型在视觉推理方面的表现来回答视觉问答模型是否在进行视觉推理，为此，研究使用了 GQA 数据集中提供的目标细粒度标注，提出了一种系统性的目标中心的视觉推理诊断方法，并开发了一个名为图形推理机的诊断模型，该模型使用概率场景图替代纯符号视觉表示，并对视觉推理模块进行了教师强制训练。

Dec, 2020

神经符号视觉推理：将 “视觉” 与 “推理” 分离

本文提出一个框架来单独评估视觉问答（VQA）中的推理方面，同时引入一种新颖的自上而下校准技术，以使模型即使具有不完美的感知也能回答推理问题，通过在具有挑战性的 GQA 数据集上进行深入的分离比较，可以了解到众所周知的 VQA 模型参与的见解以及任务。

Jun, 2020

神经符号 VQA: 从视觉和语言理解中分离推理

该论文介绍了神经符号视觉问答系统，结合深度表示学习和符号程序执行，具有更好的数据和内存效率以及对推理过程的全透明度。

Oct, 2018

迈向无监督视觉推理：现成特征是否具备推理能力？

本研究探索了通过视觉表征学习来评估对象信息如何被保留，例如它们的空间位置、视觉属性和相对关系，并介绍了一种用于评估视觉表征的协议，重点关注视觉推理的任务，比较了局部特征和面向对象的特征对于视觉推理的影响。

Dec, 2022

正确的概念：通过与其解释交互来修订神经符号概念

该研究提出了一种基于神经符号场景表征的解释交互学习方法，它能够在语义层面上对模型进行干预，通过对物体的组合性解释来获得更好的效果。

Nov, 2020

可证明学习物体为中心的表达

通过引入组合性和不可约性假设，分析了何时可以在无监督情况下学习对象为中心的表示，并通过在合成数据上的实验验证了结果。还提供了证据表明该理论具有现有对象为中心模型的预测能力。

May, 2023

神经符号概念学习器：从自然监督中解释场景、单词和句子

提出了一种无需显式监督，通过观察图片和配对问答学习视觉概念、单词和句子语义分析的神经符号概念学习器，其通过神经符号推理模块将符号程序执行于潜在场景表示，辅助学习新词并解析新句子，使用课程学习指导对图像和语言的复合空间进行搜索，并进行了广泛实验来证实其在学习视觉概念、单词表示和语义分析方面的准确性和效率。

Apr, 2019

OC-NMN: 面向生成性视觉类比推理的物体中心化组合神经模块网络

人工智能的一个关键方面是想象力，即以新颖的方式组合学习的概念，以理解新的情境。本研究展示了如何利用模块化和想象力创建一个基于物体的组合神经模块网络（OC-NMN）框架，用于视觉推理和生成任务，并证明该方法可以带来更好的非分布式泛化性能。

Oct, 2023

通过空间关系建模改进视觉语言推理

通过构建空间关系图并设计两种预训练任务，即目标位置回归和空间关系分类，本研究提出的方法在 VCR、VQA 和 NLVR 三个视觉与语言推理任务中取得了最先进的结果。

Nov, 2023