Apr, 2021

CLEVR_HYP:用于基于图像进行假设性动作的视觉问答的挑战数据集和基线模型

TL;DR本研究基于CLEVR数据集,将视觉理解提高到更高层次,通过思考特定操作在给定情境下的假想后果来回答问题,并提出了基于最佳现有VQA方法的基线求解器。此外,研究还探讨了多种体系结构实施图像-文本模态联合推论的能力,为开发更好的视觉语言模型提供了思路。