- 多尺度超像素结构差异图卷积网络用于 VL 表示
该论文提出了一种基于预训练模型的多模态语义表示方法,并引入了超像素和多尺度差异图卷积网络来提高视觉语义表达的准确性和精度,从而在多个下游任务学习方面表现出与其他先进方法的竞争力。
- 视觉预训练是否有助于端到端推理?
本文旨在探究是否可以通过视觉预训练使通用神经网络实现视觉推理的端到端学习。我们提出了一个简单的自监督框架,并在两个视觉推理基准上进行了评估。结果表明预训练对于实现复合泛化是必要的,并且我们提出的框架明显优于传统的监督预训练。
- 学习可微分逻辑程序以进行抽象视觉推理
提出了基于神经 - 符号融合的可微转移学习推理机制,命名为 NEUMANN,并通过推理识别复杂的可视化场景,包括因果推理和抽象概念推理。
- 视觉推理与基础合理性:看、记住和推理
该研究旨在通过模仿人类视觉问题解决中的 “看、记住、推理” 模式,引入基于视觉输入的原理来整合低级视觉能力,使现有的大型语言模型能够在视觉推理问题上取得竞争性表现。
- 适应性操作的独立领域智能体体系结构在不断变化的开放环境中
提出了一种名为 HYDRA 的框架,通过引入视觉推理、任务选择和行动执行模块,以及一种新颖的元推理过程,使模型引导的 agent 能够在混合离散 - 连续环境中自动检测、理解并适应其演化,实现对复杂环境的闭环交互。
- 物体为中心的关系抽象的系统性视觉推理
该研究描述了 Object-Centric Relational Abstraction(OCRA) 模型,其结合了具有抽象表征能力的目标提取和针对关系的归纳偏差,能够从图像输入中提取显式的对象和抽象关系,实现了关于复杂视觉展示的强系统化概 - 可视化转换叙述
本文提出了一种新的视觉推理任务:Visual Transformation Telling (VTT),并设计了一种基于 VTT 的机器学习模型 TTNet,该模型使用 CrossTask 和 COIN 等视频数据集进行训练与测试并在具有表 - 从状态到转换的视觉推理
本文提出了一种基于变换的视觉推理任务 (TVR),并构建了 TRANCE 合成数据集以及基于 COIN 的 TRANCO 真实数据集,用于测试机器对于多步变换场景的推理能力。实验结果表明,目前先进的视觉推理模型在基本的单步变换上表现良好,但 - 对象为中心的表示、引导注意力和外部记忆对视觉关系泛化的作用
本研究系统评估了深度神经网络(DNN)在视觉推理任务中的应用,发现虽然某些模型表现出在某些特定类型的图像上函数良好,但没有一个模型能够有效地推广到所有情况下,从而得出抽象视觉推理仍然是 DNN 面临的主要挑战。
- 通过视觉关系提升对抗性贴片的跨任务可转移性
本文提出了一种名为 VRAP 的新型视觉关系型跨任务对抗补丁生成方法,通过场景图将基于对象识别的欺骗与基于谓词关系的排除相结合,从而破坏推理任务间共享的视觉推理信息,证明了 VRAP 在跨不同视觉推理任务的黑盒传递中具有显着优势。
- NS3D: 三维物体和关系的神经符号基础
本文提出了 NS3D 三维场景认知神经符号框架,通过使用基于大规模语言编程模型的层级结构来将语言翻译为程序,不同的功能模块实现为神经网络,并引入管高度关系的功能模块有效地推理复杂场景中物体之间的关系,在数据效率和泛化方面表现出色,在 3D - CVPR分治策略:基于对象分解和组合推理的问题解答
本文提出了一种基于物体分解和语义关系的视觉推理框架,包括物体因子分解方法和神经模块网络,具有较好的推理能力和泛化性能,并且提供了可解释的决策过程界面。
- 视觉与语言模型之间的交互提示:基于知识的视觉推理
本文提出了一个名为 IPVR 的交互提示视觉推理框架,用于少样本的基于知识的视觉推理,它包含 see,think 和 confirm 三个阶段,利用视觉感知模型和大规模语言模型进行推理,可实现对推理过程的全透明跟踪和解释。
- EuclidNet:几何可构问题的深度视觉推理
本文介绍了一个基于深度学习的 EuclidNet 框架,通过视觉推理解决几何构造问题,特别适用于自动化几何定理证明;该框架使用神经网络架构 Mask R-CNN 从初始设置和目标配置中提取视觉特征,并生成可能的构造步骤作为中间数据模型,并反 - 迈向无监督视觉推理:现成特征是否具备推理能力?
本研究探索了通过视觉表征学习来评估对象信息如何被保留,例如它们的空间位置、视觉属性和相对关系,并介绍了一种用于评估视觉表征的协议,重点关注视觉推理的任务,比较了局部特征和面向对象的特征对于视觉推理的影响。
- EMNLP用七巧板形状进行抽象视觉推理
该论文介绍了 KiloGram,这是一种用于研究人类和机器的抽象视觉推理的资源,它包含一个丰富的数据库,并且用于评估近期多模态模型的抽像视觉推理能力,能够通过微调获得更好的结果。
- 通过概率类比映射进行零 - shot 视觉推理
本文介绍了 VisiPAM(visual Probabilistic Analogical Mapping)的视觉推理模型,该模型综合了视觉推理和类比推理两种方法,使用从自然视觉输入中直接推导出的学习表示和源自人类推理认知理论的相似性映射操 - VIPHY:探究 “可见” 的物理常识知识
本研究使用自动管道方法研究了视觉 - 语言模型在获取 “可见” 物理知识方面的能力,并发现这些模型在物体颜色,大小和空间三个方面的表现与人类存在明显差距。而采用预训练的基线模型 (CapBERT) 可以取得更好的表现。
- 组合视觉推理基准测试
该论文介绍了一个新的视觉推理基准测试,Compositional Visual Relations (CVR),以推动更加数据高效的学习算法的开发,并发现卷积神经网络比变压器架构在大多数数据方案上表现更好,但所有计算模型都比人类更不数据高效 - GAMR: 一种深度引导关注模型用于 (视觉) 推理
本文介绍了一个用于视觉推理的新模块 —— 带有引导注意力的视觉推理模型(GAMR),它通过选择和路由任务相关的视觉信息进入记忆的注意力移动序列来实现主动视觉理论。实验证明,GAMR 能够以稳健和高效的方式学习视觉任务,并能够在全新的推理任务