ICLRApr, 2021

MultiModalQA: 文本、表格和图像的复杂问答

TL;DR本文介绍了一个名为 “MultiModalQA (MMQA)” 的数据集,该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题,并演示了多模态多跳方法在解决这一任务中的必要性。