将神经学习和符号推理相结合，应用于视觉辨别

IJCAIJul, 2019

将神经学习和符号推理相结合，应用于视觉辨别

Composing Neural Learning and Symbolic Reasoning with an Application to Visual Discrimination

Adithya Murali, Atharva Sehgal, Paul Krogmeier, P. Madhusudan

TL;DR提出一种新的问题，即视觉鉴别谜题（VDP），要求发现可解释的鉴别器以按照逻辑规范对图像进行分类，用组合的神经符号框架结合神经网络和符号学习器，实现机器学习模型的合并来处理高级认知任务。

Abstract

We consider the problem of combining machine learning models to perform higher-level cognitive tasks with clear specifications. We propose the novel problem of →

machine learning visual discrimination neurosymbolic framework interpretable discriminators cognitive tasks

发现论文，激发创造

神经符号视觉推理：将 “视觉” 与 “推理” 分离

本文提出一个框架来单独评估视觉问答（VQA）中的推理方面，同时引入一种新颖的自上而下校准技术，以使模型即使具有不完美的感知也能回答推理问题，通过在具有挑战性的 GQA 数据集上进行深入的分离比较，可以了解到众所周知的 VQA 模型参与的见解以及任务。

Jun, 2020

神经符号 VQA: 从视觉和语言理解中分离推理

该论文介绍了神经符号视觉问答系统，结合深度表示学习和符号程序执行，具有更好的数据和内存效率以及对推理过程的全透明度。

Oct, 2018

pix2rule: 端到端的神经符号规则学习

本文提出了一种完整的神经符号方法，用于以端到端的方式将图像处理为对象，并在学习关系和逻辑规则方面。主要贡献是以可微分层为基础，从而可以通过剪枝和阈值确定符号关系和规则。我们使用两个数据集进行模型评估：符号规则学习的子图同构任务和学习对象，关系和规则的复合关系的图像分类域。结果表明，该模型超越最先进的符号学习者并优于深度关系神经网络架构。

Jun, 2021

深层符号学习：从感知中发现符号和规则

本文提出了一种名为 Deep Symbolic Learning（DSL）的神经符号集成系统，它可以同时学习感知和符号函数，并且能够在可微分的神经网络学习管道中创建内部（可解释的）符号表示，以最好的方式解释数据。

Aug, 2022

学习可微分逻辑程序以进行抽象视觉推理

提出了基于神经 - 符号融合的可微转移学习推理机制，命名为 NEUMANN，并通过推理识别复杂的可视化场景，包括因果推理和抽象概念推理。

Jul, 2023

视觉概念与组合投票

本文着眼于深度神经网络内部表示的研究，并使用聚类算法提取了一组视觉概念，展示了这些概念可以用于语义部分检测的无监督方法，并将这些视觉概念组合成了一种简单的模式理论模型，名为 “构成投票”，相较于专门针对语义部分检测的支持向量机和深度网络，证明了这种方法的效果更好。

Nov, 2017

从神经表征到符号知识的转变

通过神经 - 符号过渡性字典学习（TDL）框架，以一种自监督的方式学习数据的过渡性表示，将高维度的视觉输入信息压缩为一组张量作为神经变量，并发现隐含的谓词结构。通过原型聚类学习谓词，并使用扩散模型实现框架，通过合作博弈学习输入的分解，在 3 个抽象组合视觉对象数据集和 3 个神经 / 符号下游任务上进行了广泛实验，展示了学习到的表示能够对视觉输入进行可解释的分解，并且对于现有方法无法实现的下游任务具有平滑适应性。

Aug, 2023

视觉程序蒸馏：将工具和编程推理融入视觉 - 语言模型

通过 Visual Program Distillation (VPD) 框架将大型语言模型 (LLM) 的理解能力提炼到一个具备单次前向传递解决复杂视觉任务的视觉 - 语言模型 (VLM) 上，从而改善计数、理解空间关系和组合推理等能力，并在真实世界的应用（有限数据情况下的内容管理）中得到验证。

Dec, 2023

视觉概念学习中的组合多样性

本文探讨了人类与计算机视觉模型在不同类型的视觉组合任务中的差异，通过大程序空间中的最佳程序来生成具有丰富关系结构的候选视觉对象，发现人类和程序感知上存在着一些相同点，同时在一些结构上存在不同，其中，形成新的概念主要涉及到的是组合机制和抽象。

May, 2023

组合视觉推理基准测试

该论文介绍了一个新的视觉推理基准测试，Compositional Visual Relations (CVR)，以推动更加数据高效的学习算法的开发，并发现卷积神经网络比变压器架构在大多数数据方案上表现更好，但所有计算模型都比人类更不数据高效。

Jun, 2022