从状态到转换的视觉推理
本文提出一种新的基于转变的视觉推理范式来解决现有的视觉推理方法无法揭示动态推断的局限性,并构建了一个新的数据集 TRANCE,在单步和多步情况下评估了该范式的效果,结果表明该新方法将推动机器视觉推理模型的发展。
Nov, 2020
本文提出了一种新的视觉推理任务:Visual Transformation Telling (VTT),并设计了一种基于 VTT 的机器学习模型 TTNet,该模型使用 CrossTask 和 COIN 等视频数据集进行训练与测试并在具有表现力和泛化性方面优于其他模型。
May, 2023
本文提出一种可视化推理基元的方法,将其组合成一种能够通过显式可解释的方式执行复杂推理任务的模型,并在 CLEVR 数据集上取得了 99.1% 的准确度,同时有效地学习了泛化表示。
Mar, 2018
我们提出了一个可解释且具有通用性的视觉规划框架,包括一种新颖的基于替代的概念学习器(SCL),通过学习符号抽象和推理的任务规划,以及将视觉因果转换与语义相似的现实世界行为联系起来的视觉因果转换模型(ViCT)。通过使用学习的表示和因果转换来实现目标状态,我们在 AI2-THOR 基础上收集了一个大型视觉规划数据集(CCTP),并在这个具有挑战性的数据集上进行了大量实验,展示了我们方法在视觉任务规划中的卓越性能,同时我们还证明了我们的框架可以推广到未见过的任务轨迹和未见过的物体类别。
Oct, 2023
本文提出一个框架来单独评估视觉问答(VQA)中的推理方面,同时引入一种新颖的自上而下校准技术,以使模型即使具有不完美的感知也能回答推理问题,通过在具有挑战性的 GQA 数据集上进行深入的分离比较,可以了解到众所周知的 VQA 模型参与的见解以及任务。
Jun, 2020
本文利用视觉转换器 (ViTs) 作为我们视觉推理的基本模型,通过优化定义为物体实体及其关系概念,推动 ViTs 的推理能力,并介绍了一种新的概念特征字典,以促进全局关系推理和促进语义对象特定一一对应关系学习的局部任务。结果显示,我们的模型 Concept-guided Vision Transformer(或 RelViT)在 HICO 和 GQA 上的性能均优于先前的方法,并充分考虑了 ViT 变体和超参数的稳健性。
Apr, 2022
本文提出了一个新的大规模 3D 多视图视觉问答基准(3DMV-VQA),介绍了一种基于神经场,2D 预训练的视觉语言模型和神经推理运算符的 3D 概念学习与推理(3D-CLR)框架,并评估了各种最先进的模型,发现它们都表现不佳,提出了从多视图图像中推断出世界的紧凑 3D 表示,并在此基础上执行推理的原则方法,对挑战进行了深入分析并指出了潜在的未来方向。
Mar, 2023
提出了基于 Contrastive Perceptual Inference network (CoPiNet) 的 Vision Transformer Contrastive Network, 结合心理学、认知学和教育学,采用先进的 Vision Transformer 架构,从像素级输入和全局特征上进一步改进了机器处理和推理空间 - 时间信息在 RAVEN 数据集上的能力。
Mar, 2024
通过条件批量归一化对 CLEVR 视觉推理基准进行训练,我们的方法在人工视觉推理方面实现了最先进的成果,这表明带有适当条件的通用架构可以有效地学习进行视觉推理。
Jul, 2017
我们提出了一种新的视觉问答架构,通过常识推理作为监督信号来减轻模型在缺乏视觉基础的情况下的性能不足,并通过相似性损失将模型的视觉注意力引导到场景的重要元素,从而提高模型的视觉感知能力和性能。
Sep, 2023