Apr, 2021

信息图问答

TL;DR本文探讨使用视觉问答技术自动理解信息图像,并介绍包含自然语言问题和答案注释的多样化信息图集 InfographicVQA,强调重点是需要基本推理和基本算术能力的问题。作者进一步在现有的多模态 VQA 模型的基础上建立两种强大的基准,并为新任务建立基准性能。