Jul, 2020

DocVQA: 一个针对文档图像的 VQA 数据集

TL;DR我们介绍了一个名为 DocVQA 的基于文档图像的视觉问答数据集,并提出了该数据集与其他 VQA 和阅读理解数据集的详细分析。虽然现有模型在某些类型的问题上表现得还不错,但与人类表现相比存在较大的表现差距,需要特别在理解文档结构的问题上提高模型性能。