AAAIJan, 2021

VisualMRC:基于文档图片的机器阅读理解

TL;DR本研究提出了一个名为 VisualMRC 的新的视觉机器阅读理解数据集,包含来自多个网络域的 10,000 多个文档图像,以及 30,000 多个问题和答案对,以帮助发展自然语言理解和生成能力。此外,研究还引入了一个扩展了现有序列到序列模型的新模型,以考虑文档的视觉布局和内容。该模型在自动评估度量方面优于基本序列到序列模型和最先进的 VQA 模型,但其性能仍低于大多数人类表现。该数据集将有助于将视觉和语言理解联系起来的研究。