May, 2023

从状态到转换的视觉推理

TL;DR本文提出了一种基于变换的视觉推理任务 (TVR),并构建了 TRANCE 合成数据集以及基于 COIN 的 TRANCO 真实数据集,用于测试机器对于多步变换场景的推理能力。实验结果表明,目前先进的视觉推理模型在基本的单步变换上表现良好,但在多步变换,多视角下的场景以及 TRANCO 数据集上,机器的推理能力与人类差距较大。该研究的提出将有助于推动机器视觉推理的发展。