Jun, 2022

A-OKVQA: 利用世界知识的视觉问答基准

TL;DR介绍了 A-OKVQA 数据集,它包含了约 25000 个多样化的问题,需要广泛的常识和世界知识才能回答,相对于现有的基于知识的 VQA 数据集,这些问题通常不能通过简单地查询知识库来回答,而是需要对图像中所描绘的场景进行某种形式的常识推理,该数据集对几种最先进的视觉语言模型进行了基础性能测试。