无强先验条件下的视觉推理学习

ICMLJul, 2017

Learning Visual Reasoning Without Strong Priors

Ethan Perez, Harm de Vries, Florian Strub, Vincent Dumoulin, Aaron Courville

TL;DR通过条件批量归一化对 CLEVR 视觉推理基准进行训练，我们的方法在人工视觉推理方面实现了最先进的成果，这表明带有适当条件的通用架构可以有效地学习进行视觉推理。

Abstract

Achieving artificial visual reasoning - the ability to answer image-related questions which require a multi-step, high-level process - is an important step towards artificial general intelligence. This multi-modal task<

artificial visual reasoning multi-modal task conditional batch normalization clevr visual reasoning benchmark general architecture

发现论文，激发创造

视觉推理与基础合理性：看、记住和推理

该研究旨在通过模仿人类视觉问题解决中的 “看、记住、推理” 模式，引入基于视觉输入的原理来整合低级视觉能力，使现有的大型语言模型能够在视觉推理问题上取得竞争性表现。

Jun, 2023

神经符号视觉推理：将 “视觉” 与 “推理” 分离

本文提出一个框架来单独评估视觉问答（VQA）中的推理方面，同时引入一种新颖的自上而下校准技术，以使模型即使具有不完美的感知也能回答推理问题，通过在具有挑战性的 GQA 数据集上进行深入的分离比较，可以了解到众所周知的 VQA 模型参与的见解以及任务。

Jun, 2020

通过推理监督实现可解释的视觉问答

我们提出了一种新的视觉问答架构，通过常识推理作为监督信号来减轻模型在缺乏视觉基础的情况下的性能不足，并通过相似性损失将模型的视觉注意力引导到场景的重要元素，从而提高模型的视觉感知能力和性能。

Sep, 2023

推断和执行视觉推理程序

本文采用模块化网络模型，使用神经网络实现程序生成器和执行引擎，通过反向传播和 REINFORCE 的训练方法，在视觉推理任务（CLEVR）上打破基线模型，表现显著优越，并在各种环境中具有更好的推广性能。

May, 2017

基于端到端神经网络架构的视觉问答显式推理

该论文提出了一种在视觉问答任务中使用通感推理的方法，该方法可以通过显式推理层来解决一些需要额外知识的问题，并提供可解释性的界面。该推理层采用了基于概率的软逻辑引擎，并运用了一篮子输入来进行推理。实验证实了该方法的有效性。

Mar, 2018

视觉抽象推理任务的深度非单调推理

本文提出了一种非单调计算方法来解决视觉抽象推理任务，使用 RAVEN 数据集进行测试，并与现有单调深度学习模型进行比较，结果表明，该方法比现有单调深度学习模型更加有效。

Feb, 2023

透明度设计：在视觉推理中弥合性能与可解释性之间的差距

本文提出一种可视化推理基元的方法，将其组合成一种能够通过显式可解释的方式执行复杂推理任务的模型，并在 CLEVR 数据集上取得了 99.1% 的准确度，同时有效地学习了泛化表示。

Mar, 2018

基于粗到细的视觉问答推理

本文提出了一种新的推理框架来填补 VQA 任务中视觉特征和语义线索之间的语义鸿沟，实现了特征和谓词的有效联合学习，并在三个大规模数据集上实现了其他最先进方法无法比拟的准确度，同时还提供了一种可解释的方式来理解深度神经网络在预测答案时的决策。

Oct, 2021

测量 CLEVRness：对视觉推理模型的黑盒测试

通过视觉问答框架和基于 CLEVR 的故障排除数据集，提出了一种双方游戏来评估视觉智能系统的推理能力，并探讨了数据驱动方法在没有利用数据集中的种种偏见的情况下是否可以进行推理。

Feb, 2022

自然语言视觉推理

本论文提出了一个自然语言视觉推理的任务，通过图片和描述语句的配对，预测描述语句在给定场景中的真假。该任务涉及自然语言、机器人代理、语言输入、视觉推理以及合成图像等方面。

Oct, 2017