Jul, 2022

通过多任务学习实现相对方向根据的全面 VQA 数据集:早期确定 “正确性” 含义

TL;DR本文介绍了一种基于抽象物体的新型诊断性视觉问答数据集 GRiD-A-3D,以分析端到端 VQA 模型在相对方向上的地面能力的细粒度。同时,该数据集相对于现有数据集需要更少的计算资源,但具有相当甚至更高的性能。通过基于 GRiD-A-3D 训练的两个知名端到端 VQA 架构的彻底评估,本文证明了在相对指令直观处理的顺序中学习场景中物体的识别和定位以及估计它们内在方向的子任务。