场景图上的可解释和显式视觉推理

CVPRDec, 2018

场景图上的可解释和显式视觉推理

Explainable and Explicit Visual Reasoning over Scene Graphs

Jiaxin Shi, Hanwang Zhang, Juanzi Li

TL;DR通过使用场景图作为归纳偏差，我们设计了一种简洁灵活的可解释和显式神经模块（XNMs），并且能够显式追踪图形注意力的推理流程。当使用完美检测的场景图时， XNMs 能够在 CLEVR 和 CLEVR CoGenT 上实现 100％的准确率，当嘈杂地检测真实世界图像时，XNMs 仍然能够达到竞争性 67.5％的 VQAv2.0 准确度，超越了流行的无结构模型。

Abstract

We aim to dismantle the prevalent black-box neural architectures used in complex visual reasoning tasks, into the proposed eXplainable and eXplicit Neural Modules (XNMs), which advance beyond existing neural module networks towards using →

explainable and explicit neural modules scene graphs visual reasoning graph attentions structured knowledge

发现论文，激发创造

利用场景图和视觉注意力为视觉问答生成自然语言解释

本文介绍了一种新的方法来生成自然语言的解释，解释视觉问答（VQA）问题的答案，其包含图像中支持答案的证据，使用了场景图中的实体注释和 VQA 模型生成的关注图来证明。在 Visual Genome（VG）数据集上运行算法，并进行内部用户研究，证明了我们的方法的有效性。

Feb, 2019

教师引导的组合视觉推理的多模态表示

通过利用跨模态特征和更有效的训练技术，加强了神经模块网络在视觉问答中的性能和透明度。

Oct, 2023

多重图网络在抽象图解推理中的应用

本文提出了一种名为 MXGNet 的多层图神经网络，用于解决多面板图解推理任务，它通过对象级别表示、图神经网络和多路复用图等三个强大概念，提取图表中元素的对象级别表示，形成捕捉不同图表面板之间对象之间多个关系的多层多路复用图，并从任务提取的多个图表中总结信息以从给定的答案选项中选择最可能的答案，这种方法在欧拉图的演绎推理任务中实现了 99.8% 的现有最高精度，并且在针对 RPM 推理的两个全面数据集 PGM 和 RAVEN 上，MXGNet 的表现超越了现有最先进的模型。

Jun, 2020

深度神经网络推理方法的一种解释 —— 结构化视觉概念

本文提出了一个基于结构化视觉概念的框架（VRX），以解释分类神经网络的推理过程，并提供模型决策的逻辑和概念层次的解释，旨在弥补黑盒神经网络缺乏可解释性和透明性的缺陷。通过广泛的实验，研究表明 VRX 可以有效地回答关于预测的 “为什么” 和 “为什么不” 的问题，提供易于理解的洞察，同时还可以提供改善神经网络性能的指导意见。

May, 2021

利用场景图进行视觉问答的实证研究

本文提出了一种使用场景图和图网络进行视觉问答的方法，具有比当前最先进的视觉问答算法更清晰的架构，同时可以解释推理过程，展示了可解释的视觉问答的潜力。

Jul, 2019

神经符号视觉推理：将 “视觉” 与 “推理” 分离

本文提出一个框架来单独评估视觉问答（VQA）中的推理方面，同时引入一种新颖的自上而下校准技术，以使模型即使具有不完美的感知也能回答推理问题，通过在具有挑战性的 GQA 数据集上进行深入的分离比较，可以了解到众所周知的 VQA 模型参与的见解以及任务。

Jun, 2020

视觉问答中的场景图推理

我们提出了一种基于场景图和强化学习的方法来解决视觉问答任务，实验结果表明该方法在 GQA 数据集上已达到接近人类水平的效果。

Jul, 2020

组合视觉推理的元模块网络

通过提出 Meta Module Network，该论文致力于解决 Neural Module Network 包括扩展性和泛化性等局限性，并在 GQA 和 CLEVR 数据集上进行实验证明了该模型的优越性。

Oct, 2019

学会推理：端到端模块化网络用于视觉问答

本研究提出了一种新的基于神经网络的问题回答方法，使用 End-to-End Module Networks 技术，学习直接预测特定问题网络图层，该方法相对于现有最先进的注意力方法实现了近 50％的误差减少，特别针对 CLEVR 数据集。

Apr, 2017

获取自动驾驶场景解释的定性可解释图

汽车自动驾驶中的鲁棒公平可解释人工智能方法的发展是其未来的基础。本文提出了一种名为 Qualitative eXplainable Graph（QXG）的汽车自动驾驶场景的新表达方法，用于对长期场景进行定性时空推理。实验证明，这种定性可解释图的实时计算和轻量级存储为改进和更可信赖的感知与控制过程提供了潜在的有趣工具。

Aug, 2023