Jun, 2023

百科问答视觉:有关细粒度类别详细属性的视觉问题

TL;DR提出了一个大规模的视觉问答数据集 Encyclopedic-VQA,包括涉及细粒度类别和实例详细属性的视觉问题,并配有来自 Wikipedia 的知识库作为支持每个答案的证据,可以通过检索增强模型实现对这些问答的准确回答。