AAAIJan, 2023
SlideVQA:多图文档视觉问答数据集
SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images
Ryota Tanaka, Kyosuke Nishida, Kosuke Nishida, Taku Hasegawa, Itsumi Saito...
TL;DR提出了一个包含多种信息的文档图像的逻辑问答系统,包括视觉、文本和排版信息。SlideVQA 是一个用于复杂推理的新的多图像文档数据集,利用序列到序列模型同时处理证据选择和问题回答。实验结果表明,该方法在 SlideVQA 数据集上表现出了较好的效果。