从状态到转换的视觉推理

May, 2023

Visual Reasoning: from State to Transformation

Xin Hong, Yanyan Lan, Liang Pang, Jiafeng Guo, Xueqi Cheng

TL;DR本文提出了一种基于变换的视觉推理任务 (TVR)，并构建了 TRANCE 合成数据集以及基于 COIN 的 TRANCO 真实数据集，用于测试机器对于多步变换场景的推理能力。实验结果表明，目前先进的视觉推理模型在基本的单步变换上表现良好，但在多步变换，多视角下的场景以及 TRANCO 数据集上，机器的推理能力与人类差距较大。该研究的提出将有助于推动机器视觉推理的发展。

Abstract

Most existing visual reasoning tasks, such as CLEVR in VQA, ignore an important factor, i.e.~transformation. They are solely defined to test how well machines understand concepts and relations within static settings, like one image. Such \textbf{state driven} →

visual reasoning transformation-driven trance tranco machine learning

发现论文，激发创造

基于转换的视觉推理

本文提出一种新的基于转变的视觉推理范式来解决现有的视觉推理方法无法揭示动态推断的局限性，并构建了一个新的数据集 TRANCE，在单步和多步情况下评估了该范式的效果，结果表明该新方法将推动机器视觉推理模型的发展。

Nov, 2020

可视化转换叙述

本文提出了一种新的视觉推理任务：Visual Transformation Telling (VTT)，并设计了一种基于 VTT 的机器学习模型 TTNet，该模型使用 CrossTask 和 COIN 等视频数据集进行训练与测试并在具有表现力和泛化性方面优于其他模型。

May, 2023

透明度设计：在视觉推理中弥合性能与可解释性之间的差距

本文提出一种可视化推理基元的方法，将其组合成一种能够通过显式可解释的方式执行复杂推理任务的模型，并在 CLEVR 数据集上取得了 99.1% 的准确度，同时有效地学习了泛化表示。

Mar, 2018

学习基于概念的视觉因果转换和符号推理用于视觉规划

我们提出了一个可解释且具有通用性的视觉规划框架，包括一种新颖的基于替代的概念学习器（SCL），通过学习符号抽象和推理的任务规划，以及将视觉因果转换与语义相似的现实世界行为联系起来的视觉因果转换模型（ViCT）。通过使用学习的表示和因果转换来实现目标状态，我们在 AI2-THOR 基础上收集了一个大型视觉规划数据集（CCTP），并在这个具有挑战性的数据集上进行了大量实验，展示了我们方法在视觉任务规划中的卓越性能，同时我们还证明了我们的框架可以推广到未见过的任务轨迹和未见过的物体类别。

Oct, 2023

神经符号视觉推理：将 “视觉” 与 “推理” 分离

本文提出一个框架来单独评估视觉问答（VQA）中的推理方面，同时引入一种新颖的自上而下校准技术，以使模型即使具有不完美的感知也能回答推理问题，通过在具有挑战性的 GQA 数据集上进行深入的分离比较，可以了解到众所周知的 VQA 模型参与的见解以及任务。

Jun, 2020

RelViT: 用于视觉关系推理的概念引导视觉 Transformer

本文利用视觉转换器 (ViTs) 作为我们视觉推理的基本模型，通过优化定义为物体实体及其关系概念，推动 ViTs 的推理能力，并介绍了一种新的概念特征字典，以促进全局关系推理和促进语义对象特定一一对应关系学习的局部任务。结果显示，我们的模型 Concept-guided Vision Transformer（或 RelViT）在 HICO 和 GQA 上的性能均优于先前的方法，并充分考虑了 ViT 变体和超参数的稳健性。

Apr, 2022

多视角图像中的三维概念学习和推理

本文提出了一个新的大规模 3D 多视图视觉问答基准（3DMV-VQA），介绍了一种基于神经场，2D 预训练的视觉语言模型和神经推理运算符的 3D 概念学习与推理（3D-CLR）框架，并评估了各种最先进的模型，发现它们都表现不佳，提出了从多视图图像中推断出世界的紧凑 3D 表示，并在此基础上执行推理的原则方法，对挑战进行了深入分析并指出了潜在的未来方向。

Mar, 2023

ViTCN：用于推理的视觉转换器对比网络

提出了基于 Contrastive Perceptual Inference network (CoPiNet) 的 Vision Transformer Contrastive Network，结合心理学、认知学和教育学，采用先进的 Vision Transformer 架构，从像素级输入和全局特征上进一步改进了机器处理和推理空间 - 时间信息在 RAVEN 数据集上的能力。

Mar, 2024

无强先验条件下的视觉推理学习

通过条件批量归一化对 CLEVR 视觉推理基准进行训练，我们的方法在人工视觉推理方面实现了最先进的成果，这表明带有适当条件的通用架构可以有效地学习进行视觉推理。

Jul, 2017

通过推理监督实现可解释的视觉问答

我们提出了一种新的视觉问答架构，通过常识推理作为监督信号来减轻模型在缺乏视觉基础的情况下的性能不足，并通过相似性损失将模型的视觉注意力引导到场景的重要元素，从而提高模型的视觉感知能力和性能。

Sep, 2023