Jun, 2023
百科问答视觉:有关细粒度类别详细属性的视觉问题
Encyclopedic VQA: Visual questions about detailed properties of fine-grained categories
Thomas Mensink, Jasper Uijlings, Lluis Castrejon, Arushi Goel, Felipe Cadar...
TL;DR提出了一个大规模的视觉问答数据集 Encyclopedic-VQA,包括涉及细粒度类别和实例详细属性的视觉问题,并配有来自 Wikipedia 的知识库作为支持每个答案的证据,可以通过检索增强模型实现对这些问答的准确回答。