CVPRMar, 2022

视觉诱导推理

TL;DR本文提出了一种基于可视信息的机器智能推理任务及对应数据集 Visual Abductive Reasoning (VAR),并基于 VAR 数据集设计了一个基于 causual-and-cascaded reasoning Transformer 模型的强基线模型 Reasoner,用于抽象观测到的信息并推测可能的假设,实验表明 Reasoner 的性能超过多个著名的视觉语言模型,但仍远不及人类表现。