Nov, 2023

来自在线社区的完整真实视觉问答数据集

TL;DRVQAonline 是第一个所有内容都来源于真实用例的 VQA 数据集,该数据集中的答案往往较长,并且不适用于标准的 VQA 评估指标;研究发现,在长文本评估方面,六个流行的度量标准与人工判断相符度最高;使用最适合的度量标准评估六个最先进的视觉和语言基础模型在 VQAonline 上,揭示了它们最困难的问题。