推断和执行视觉推理程序
通过条件批量归一化对 CLEVR 视觉推理基准进行训练,我们的方法在人工视觉推理方面实现了最先进的成果,这表明带有适当条件的通用架构可以有效地学习进行视觉推理。
Jul, 2017
本文提出一种可视化推理基元的方法,将其组合成一种能够通过显式可解释的方式执行复杂推理任务的模型,并在 CLEVR 数据集上取得了 99.1% 的准确度,同时有效地学习了泛化表示。
Mar, 2018
该研究旨在通过模仿人类视觉问题解决中的 “看、记住、推理” 模式,引入基于视觉输入的原理来整合低级视觉能力,使现有的大型语言模型能够在视觉推理问题上取得竞争性表现。
Jun, 2023
通过视觉问答框架和基于 CLEVR 的故障排除数据集,提出了一种双方游戏来评估视觉智能系统的推理能力,并探讨了数据驱动方法在没有利用数据集中的种种偏见的情况下是否可以进行推理。
Feb, 2022
本论文提出了一种用于迭代视觉推理的新框架,该框架采用两个核心模块 —— 使用空间记忆存储先前信念的本地模块和全局图形推理模块。图形模块由知识图谱、当前图像的区域图和将区域分配给类别的分配图组成。实验表明,该框架性能强大,与普通 ConvNets 相比在 ADE 上能获得 8.4%的绝对提升,并且该框架对于推理中遗漏的区域具有韧性。
Mar, 2018
本文旨在提高可信的 AI 系统的有效性和可解释性,定义一个新类型的多模态解释来解释决策,并提出一种新的解释生成方法,可以显式地模拟词语和感兴趣的区域之间的配对关系,同时开发了一个包含 1040830 个多模态解释的新数据集以及进行了广泛的分析,以研究不同设置下解释的有效性和推理性能。
Mar, 2022
我们介绍了一种新的神经架构,用于解决视觉抽象推理任务,受到人类认知的启发,特别是人类抽象推理经常在感知和概念处理之间交替进行,作为一种灵活、迭代和动态的认知过程。我们介绍了如何使用矩阵推理问题来解释这种新的对比感知 - 概念网络(CPCNet)的工作方式,以形式化问题的思维。在机器学习数据集 RAVEN 上的实验证明,CPCNet 相比之前的所有模型具有更高的准确性,同时使用了最弱的归纳偏差。我们还指出了原始 RAVEN 数据集中的显著且以前未被注意到的类别不平衡问题,并提出了一个新的变体 RAVEN--AB-RAVEN,该变体在抽象概念方面更加平衡。
Sep, 2023
本文提出一个框架来单独评估视觉问答(VQA)中的推理方面,同时引入一种新颖的自上而下校准技术,以使模型即使具有不完美的感知也能回答推理问题,通过在具有挑战性的 GQA 数据集上进行深入的分离比较,可以了解到众所周知的 VQA 模型参与的见解以及任务。
Jun, 2020