Aug, 2022
ChiQA: 一个大规模基于图像的真实世界问题回答数据集,用于多模态理解
ChiQA: A Large Scale Image-based Real-World Question Answering Dataset for Multi-Modal Understanding
Bingning Wang, Feiyang Lv, Ting Yao, Yiming Yuan, Jin Ma...
TL;DR这篇论文介绍了一个基于图像的新的问题回答数据集 ——ChiQA,其中问题是真实的、与图像无关的查询,相比于以往的数据集更为多样和不偏,要求更深入的语言和视觉推理,并评估了几个最先进的可视语言模型,显示出在 ChiQA 上仍有很大的提高空间。