- CVPRBongard-HOI: 用于人 - 物互动视觉推理的几支学习基准评测
该研究提出了一种视觉推理基准测试,名为 Bongard-HOI,用于组合学习自然图像中的人 - 物交互。该基准测试模拟实际场景中的一些情况,通过 few-shot instance 和难例的设计,将正负图像仅在动作标签上发生分歧,使得仅仅识 - ACLQLEVR: 一个用于量化语言和基本视觉推理的诊断数据集
本文介绍了一个最小偏差、诊断性的视觉问答数据集 QLEVR,专注于集合概念和复杂量化,挑战了当前最先进的视觉问答模型的能力。
- CVPRREX:基于推理和实证的解释
本文旨在提高可信的 AI 系统的有效性和可解释性,定义一个新类型的多模态解释来解释决策,并提出一种新的解释生成方法,可以显式地模拟词语和感兴趣的区域之间的配对关系,同时开发了一个包含 1040830 个多模态解释的新数据集以及进行了广泛的分 - TransDreamer:使用 Transformer World 模型的强化学习
本文介绍了一种基于 Transformer 模型的模型驱动强化学习代理 TransDreamer,该代理在 2D 视觉和 3D 第一人称视觉强化学习任务中表现优于传统的 Dreamer 代理,并且实现了长程记忆访问的记忆推理。
- 基于语法的基础词汇学习
Grammar-Based Grounded Lexicon Learning (G2L2) is a lexicalist approach for compositional and grounded meaning represent - DALL-Eval: 探测文本到图像生成模型的推理能力与社会偏见
对多模态变压器语言模型和扩散模型等文本到图像模型进行了视觉推理能力和社会偏见的调查,提出 PaintSkills 工具集进行测量评估,发现最新的文本到图像模型在目标计数和空间关系理解技能上的性能与上限准确性之间存在较大差距,并且其在性别和肤 - EMNLP视觉语言理解的蒸馏双编码模型
提出了一种跨模态关注蒸馏框架来训练双编码器模型,以用于视觉语言理解任务,如视觉推理和视觉问答,并证明使用这种框架可以在保持比融合编码器模型更快的推理速度的同时实现竞争性的性能表现。
- 基于部件的概念、关系和物理推理的基准测试:PTR
介绍一份新的大规模诊断视觉推理数据集 PTR,包含约 70k 的 RGBD 合成图像与人工生成的 70k 个问题,并包含语义实例分割、颜色属性、空间几何关系和物理属性的注释。通过在该数据集上测试现有的视觉推理模型,发现这些模型在细粒度概念、 - 从视频和语言中学习可微分物理模型进行动态可视化推理
本文提出了一种名为 VRDP 的统一框架,可以从视频和语言中联合学习视觉概念,并推断对象及其交互的物理模型,通过无缝集成三个组成部分:视觉理解模块、概念学习器和可微分的物理引擎。
- ProTo:面向程序驱动任务的程序引导 Transformer
通过程序引导任务进行学习,ProTo 结合语义和结构指导,并通过跨注意力和掩码自我注意力在规范和程序中的例程之间传递消息。在 GQA 视觉推理和 2D Minecraft 策略学习数据集上,ProTo 明显优于先前现有的最先进方法,并表现出 - MERLOT: 多模态神经脚本知识模型
MERLOT 是一个模型,通过观看数百万个 YouTube 视频进行自我监督的无标签学习,学习多模态脚本知识,包括空间和时间和语境化的全局情况,从而在视觉场景中推理动态情境,形成出色的时间常识和现场表现,并在视觉常识推理方面表现出色。
- IJCAI基于网格 - 词交叉注意力的无提案单阶段指代表达
本研究提出了一个基于交叉注意力变换器的无提案一阶段模型(PFOS),用于根据文本查询从图像中回归感兴趣区域,避免了之前方法所遇到的时间成本和超参数困境,并在四个参考表达数据集上取得了比以往方法更高效的最佳表现。
- ACL开放式视觉问题回答(VQA)任务开发和评估中的瓶颈突破:“你对并不代表我错
提出了基于 Alternative Answer Sets (AAS) 的语义度量方法,通过修改现有的 VQA 算法实现多个有效答案,提高了视觉理解和组合问题回答 (GQA) 数据集的表现。
- 视觉和语言推理:探索补充知识的益处
本文研究了将通用知识库中的知识注入视觉 - 语言模型中,并通过辅助训练目标增加了语义和关系知识的表征,实现了对问题回答、视觉推理等任务中的性能提升,这种技术不依赖于特定的模型,具有较小的计算开销。
- 通过学习目标嵌入进行注意力,实现复杂的视觉推理
该文介绍了一种基于神经网络的动态视觉推理问题的更通用方法,通过学习物体中心表示、自我关注和自监督动力学学习,以实现三个不同领域的最先进表现,在每种情况下都优于针对任务特定定制的专用模块化方法。
- CVPR基于转换的视觉推理
本文提出一种新的基于转变的视觉推理范式来解决现有的视觉推理方法无法揭示动态推断的局限性,并构建了一个新的数据集 TRANCE,在单步和多步情况下评估了该范式的效果,结果表明该新方法将推动机器视觉推理模型的发展。
- ICCV通过诱导符号空间进行可解释的视觉推理
该研究旨在通过目标 - 中心的组合式注意力模型(OCCAM)和符号概念空间,从与图像相关的问题 - 答案对中识别概念和它们的分层关系,并实现一个可解释的模型。该模型通过设计新的 OCCAM 框架执行视觉推理任务,并提出一种方法,从对象的视觉 - IJCAI学习离散组合推理模块网络,用于视频字幕
本文提出了一种名为推理模块网络 (RMN) 的视觉推理方法,旨在为现有的编码器 - 解码器框架提供视频字幕生成的推理能力,RMN 包括三个复杂的时空推理模块和一个由 Gumbel 估算法训练的动态和离散模块选择器,并且在 MSVD 和 MS - ICML神经符号视觉推理:将 “视觉” 与 “推理” 分离
本文提出一个框架来单独评估视觉问答(VQA)中的推理方面,同时引入一种新颖的自上而下校准技术,以使模型即使具有不完美的感知也能回答推理问题,通过在具有挑战性的 GQA 数据集上进行深入的分离比较,可以了解到众所周知的 VQA 模型参与的见解 - 多重图网络在抽象图解推理中的应用
本文提出了一种名为 MXGNet 的多层图神经网络,用于解决多面板图解推理任务,它通过对象级别表示、图神经网络和多路复用图等三个强大概念,提取图表中元素的对象级别表示,形成捕捉不同图表面板之间对象之间多个关系的多层多路复用图,并从任务提取的