Aug, 2022

ChiQA: 一个大规模基于图像的真实世界问题回答数据集,用于多模态理解

TL;DR这篇论文介绍了一个基于图像的新的问题回答数据集 ——ChiQA,其中问题是真实的、与图像无关的查询,相比于以往的数据集更为多样和不偏,要求更深入的语言和视觉推理,并评估了几个最先进的可视语言模型,显示出在 ChiQA 上仍有很大的提高空间。