AAAIJan, 2020

ManyModalQA:多模态输入下的语式消歧和问答

TL;DR本文提出了一个新的多模态问答挑战 ManyModalQA,在这里代理必须考虑三个不同的模态:文本、图像和表格。我们收集数据的方式是爬取维基百科,并利用众包收集问题 - 答案对。我们的问题是有歧义的,因为包含答案的模态不仅仅基于问题就易于确定。我们构建一个模态选择器(或消歧器)网络,通过分析该模型,我们研究了问题中指示模态的哪些单词。接下来,我们构建了一个简单的基线 ManyModalQA 模型,该模型基于模态选择器的预测,触发相应的预训练单模态 QA 模型。我们提供一个新的多模态评估集,只提供一个微调集,在鼓励低资源泛化新任务时,期望现有数据集和方法能被转移。尽管基于基线模型的表现与人类表现之间存在显著差距,但我们希望这一挑战能鼓励研究多模态 QA 模型的端到端消歧和迁移学习。