AAAIJan, 2023

SlideVQA:多图文档视觉问答数据集

TL;DR提出了一个包含多种信息的文档图像的逻辑问答系统,包括视觉、文本和排版信息。SlideVQA 是一个用于复杂推理的新的多图像文档数据集,利用序列到序列模型同时处理证据选择和问题回答。实验结果表明,该方法在 SlideVQA 数据集上表现出了较好的效果。