推断和执行视觉推理程序

May, 2017

Inferring and Executing Programs for Visual Reasoning

Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Judy Hoffman, Li Fei-Fei...

TL;DR本文采用模块化网络模型，使用神经网络实现程序生成器和执行引擎，通过反向传播和 REINFORCE 的训练方法，在视觉推理任务（CLEVR）上打破基线模型，表现显著优越，并在各种环境中具有更好的推广性能。

Abstract

Existing methods for visual reasoning attempt to directly map inputs to outputs using black-box architectures without explicitly modeling the underlying reasoning processes. As a result, these black-box models often learn to exploit biases in the data rather than learning to perform

visual reasoning module networks neural networks backpropagation reinforce

发现论文，激发创造

无强先验条件下的视觉推理学习

通过条件批量归一化对 CLEVR 视觉推理基准进行训练，我们的方法在人工视觉推理方面实现了最先进的成果，这表明带有适当条件的通用架构可以有效地学习进行视觉推理。

Jul, 2017

学习可微分逻辑程序以进行抽象视觉推理

提出了基于神经 - 符号融合的可微转移学习推理机制，命名为 NEUMANN，并通过推理识别复杂的可视化场景，包括因果推理和抽象概念推理。

Jul, 2023

神经符号 VQA: 从视觉和语言理解中分离推理

该论文介绍了神经符号视觉问答系统，结合深度表示学习和符号程序执行，具有更好的数据和内存效率以及对推理过程的全透明度。

Oct, 2018

透明度设计：在视觉推理中弥合性能与可解释性之间的差距

本文提出一种可视化推理基元的方法，将其组合成一种能够通过显式可解释的方式执行复杂推理任务的模型，并在 CLEVR 数据集上取得了 99.1% 的准确度，同时有效地学习了泛化表示。

Mar, 2018

视觉推理与基础合理性：看、记住和推理

该研究旨在通过模仿人类视觉问题解决中的 “看、记住、推理” 模式，引入基于视觉输入的原理来整合低级视觉能力，使现有的大型语言模型能够在视觉推理问题上取得竞争性表现。

Jun, 2023

测量 CLEVRness：对视觉推理模型的黑盒测试

通过视觉问答框架和基于 CLEVR 的故障排除数据集，提出了一种双方游戏来评估视觉智能系统的推理能力，并探讨了数据驱动方法在没有利用数据集中的种种偏见的情况下是否可以进行推理。

Feb, 2022

迭代视觉推理：超越卷积

本论文提出了一种用于迭代视觉推理的新框架，该框架采用两个核心模块 —— 使用空间记忆存储先前信念的本地模块和全局图形推理模块。图形模块由知识图谱、当前图像的区域图和将区域分配给类别的分配图组成。实验表明，该框架性能强大，与普通 ConvNets 相比在 ADE 上能获得 8.4％的绝对提升，并且该框架对于推理中遗漏的区域具有韧性。

Mar, 2018

REX：基于推理和实证的解释

本文旨在提高可信的 AI 系统的有效性和可解释性，定义一个新类型的多模态解释来解释决策，并提出一种新的解释生成方法，可以显式地模拟词语和感兴趣的区域之间的配对关系，同时开发了一个包含 1040830 个多模态解释的新数据集以及进行了广泛的分析，以研究不同设置下解释的有效性和推理性能。

Mar, 2022

基于认知启发的神经结构在视觉抽象推理中运用对比感知和概念处理

我们介绍了一种新的神经架构，用于解决视觉抽象推理任务，受到人类认知的启发，特别是人类抽象推理经常在感知和概念处理之间交替进行，作为一种灵活、迭代和动态的认知过程。我们介绍了如何使用矩阵推理问题来解释这种新的对比感知 - 概念网络（CPCNet）的工作方式，以形式化问题的思维。在机器学习数据集 RAVEN 上的实验证明，CPCNet 相比之前的所有模型具有更高的准确性，同时使用了最弱的归纳偏差。我们还指出了原始 RAVEN 数据集中的显著且以前未被注意到的类别不平衡问题，并提出了一个新的变体 RAVEN--AB-RAVEN，该变体在抽象概念方面更加平衡。

Sep, 2023

神经符号视觉推理：将 “视觉” 与 “推理” 分离

本文提出一个框架来单独评估视觉问答（VQA）中的推理方面，同时引入一种新颖的自上而下校准技术，以使模型即使具有不完美的感知也能回答推理问题，通过在具有挑战性的 GQA 数据集上进行深入的分离比较，可以了解到众所周知的 VQA 模型参与的见解以及任务。

Jun, 2020