REX：基于推理和实证的解释

CVPRMar, 2022

REX: Reasoning-aware and Grounded Explanation

Shi Chen, Qi Zhao

TL;DR本文旨在提高可信的 AI 系统的有效性和可解释性，定义一个新类型的多模态解释来解释决策，并提出一种新的解释生成方法，可以显式地模拟词语和感兴趣的区域之间的配对关系，同时开发了一个包含 1040830 个多模态解释的新数据集以及进行了广泛的分析，以研究不同设置下解释的有效性和推理性能。

Abstract

Effectiveness and interpretability are two essential properties for trustworthy ai systems. Most recent studies in visual reasoning are de

ai systems visual reasoning multi-modal explanations interpretability reasoning performance

发现论文，激发创造

借助推理能力强化 3D 视觉定位

提出了一种新的任务称为 3D 推理定位，并引入了一个名为 ScanReason 的新基准，该基准提供了来自五种推理类型的超过 10K 个问题 - 答案 - 位置对，需要推理与定位的相互作用，进一步设计了我们的 ReGround3D 方法，由视觉中心推理模块与多模式大型语言模型（MLLM）驱动的 3D 定位模块组成，通过回顾增强几何和细节从 3D 场景中获得准确的对象位置，并提出了一种推理和定位步骤相互交错的推理链机制来进一步提高性能，在所提出的基准上进行了广泛的实验证实了我们提出的方法的有效性。

Jul, 2024

可解释的神经符号视觉推理

本文讨论了为非技术用户产生解释的最有效和高效的解决方案，提出了一种基于连接主义和符号范式的推理模型来解释神经网络的决策，并用一个例子演示了它的潜在用途。

Sep, 2019

视觉推理与基础合理性：看、记住和推理

该研究旨在通过模仿人类视觉问题解决中的 “看、记住、推理” 模式，引入基于视觉输入的原理来整合低级视觉能力，使现有的大型语言模型能够在视觉推理问题上取得竞争性表现。

Jun, 2023

视觉问题回答的忠实多模态解释

本文提出了一种新颖的方法，开发了一个高性能的 VQA 系统，能够通过集成的文本和视觉解释阐述其答案，并捕捉到深度神经网络推理的重要方面，从而比竞争方法具有更好的自动化和人类评估指标。

Sep, 2018

生成视觉解释

提出了一种新的深度学习视觉识别模型，可根据可见物体的特征进行分类，并生成解释说明预测标签的原因，该模型使用了一种基于采样和强化学习的新型损失函数，能够生成与现有描述方法不同的描述结果。

Mar, 2016

以对象为中心的视觉推理诊断

该研究旨在通过评估不同模型在视觉推理方面的表现来回答视觉问答模型是否在进行视觉推理，为此，研究使用了 GQA 数据集中提供的目标细粒度标注，提出了一种系统性的目标中心的视觉推理诊断方法，并开发了一个名为图形推理机的诊断模型，该模型使用概率场景图替代纯符号视觉表示，并对视觉推理模块进行了教师强制训练。

Dec, 2020

交互式对比解释 (REASONX)

REASONX 是一种基于约束逻辑编程的解释工具，提供可以增加背景知识的互动对比解释，针对机器学习模型和决策树进行解释，并具有更高的灵活性。

May, 2023

从像素到语义框架到常识图谱的全栈视觉推理自然语言理由

本文介绍了首个以生成自然语言解释为中心的研究，该研究关注复杂的视觉推理任务，包括视觉常识推理、视觉文本蕴含和视觉问答。文章提出了 Rationale^VT Transformer，该模型通过结合预训练的语言模型、对象识别、基于视觉的语义框架和视觉常识图生成自由文本解释，实现了全面的图像理解，并且实验证明，自然语言解释是用于复杂视觉 - 文本推理任务的一种具有前景的研究方向。

Oct, 2020

因果推理遇见视觉表征学习：一项前瞻性研究

本文综述了现有的因果推理方法在视觉表征学习中的应用，探讨了当前方法和数据集的限制，并提出了因果推理算法基准的前景挑战、机会和未来研究方向，以更有效地实现可靠的视觉表征学习及相关应用。

Apr, 2022

可解释性人工智能和视觉推理：来自放射学的洞见

本研究旨在探讨为什么可解释的 AI（XAI）在放射学中的解释尽管具有透明度的优势，但仍无法获得人类信任，并提出了一种人类中心的解释设计原则，从人类推理和证明角度提高可解释 AI 解释的可用性和可信度。

Apr, 2023