将神经学习和符号推理相结合,应用于视觉辨别
本文提出一个框架来单独评估视觉问答(VQA)中的推理方面,同时引入一种新颖的自上而下校准技术,以使模型即使具有不完美的感知也能回答推理问题,通过在具有挑战性的 GQA 数据集上进行深入的分离比较,可以了解到众所周知的 VQA 模型参与的见解以及任务。
Jun, 2020
本文提出了一种完整的神经符号方法,用于以端到端的方式将图像处理为对象,并在学习关系和逻辑规则方面。主要贡献是以可微分层为基础,从而可以通过剪枝和阈值确定符号关系和规则。我们使用两个数据集进行模型评估:符号规则学习的子图同构任务和学习对象,关系和规则的复合关系的图像分类域。结果表明,该模型超越最先进的符号学习者并优于深度关系神经网络架构。
Jun, 2021
本文提出了一种名为 Deep Symbolic Learning(DSL)的神经符号集成系统,它可以同时学习感知和符号函数,并且能够在可微分的神经网络学习管道中创建内部(可解释的)符号表示,以最好的方式解释数据。
Aug, 2022
本文着眼于深度神经网络内部表示的研究,并使用聚类算法提取了一组视觉概念,展示了这些概念可以用于语义部分检测的无监督方法,并将这些视觉概念组合成了一种简单的模式理论模型,名为 “构成投票”,相较于专门针对语义部分检测的支持向量机和深度网络,证明了这种方法的效果更好。
Nov, 2017
通过神经 - 符号过渡性字典学习(TDL)框架,以一种自监督的方式学习数据的过渡性表示,将高维度的视觉输入信息压缩为一组张量作为神经变量,并发现隐含的谓词结构。通过原型聚类学习谓词,并使用扩散模型实现框架,通过合作博弈学习输入的分解,在 3 个抽象组合视觉对象数据集和 3 个神经 / 符号下游任务上进行了广泛实验,展示了学习到的表示能够对视觉输入进行可解释的分解,并且对于现有方法无法实现的下游任务具有平滑适应性。
Aug, 2023
通过 Visual Program Distillation (VPD) 框架将大型语言模型 (LLM) 的理解能力提炼到一个具备单次前向传递解决复杂视觉任务的视觉 - 语言模型 (VLM) 上,从而改善计数、理解空间关系和组合推理等能力,并在真实世界的应用(有限数据情况下的内容管理)中得到验证。
Dec, 2023
本文探讨了人类与计算机视觉模型在不同类型的视觉组合任务中的差异,通过大程序空间中的最佳程序来生成具有丰富关系结构的候选视觉对象,发现人类和程序感知上存在着一些相同点,同时在一些结构上存在不同,其中,形成新的概念主要涉及到的是组合机制和抽象。
May, 2023
该论文介绍了一个新的视觉推理基准测试,Compositional Visual Relations (CVR),以推动更加数据高效的学习算法的开发,并发现卷积神经网络比变压器架构在大多数数据方案上表现更好,但所有计算模型都比人类更不数据高效。
Jun, 2022