MultiModalQA: 文本、表格和图像的复杂问答
本文提出了一个新的多模态问答挑战 ManyModalQA,在这里代理必须考虑三个不同的模态:文本、图像和表格。我们收集数据的方式是爬取维基百科,并利用众包收集问题 - 答案对。我们的问题是有歧义的,因为包含答案的模态不仅仅基于问题就易于确定。我们构建一个模态选择器(或消歧器)网络,通过分析该模型,我们研究了问题中指示模态的哪些单词。接下来,我们构建了一个简单的基线 ManyModalQA 模型,该模型基于模态选择器的预测,触发相应的预训练单模态 QA 模型。我们提供一个新的多模态评估集,只提供一个微调集,在鼓励低资源泛化新任务时,期望现有数据集和方法能被转移。尽管基于基线模型的表现与人类表现之间存在显著差距,但我们希望这一挑战能鼓励研究多模态 QA 模型的端到端消歧和迁移学习。
Jan, 2020
本文介绍了一个包含 1,384 个跨媒体对象基于新闻文章的多步骤问题的 QA 评估基准,并提出了一个新颖的多媒体数据增强框架,用于自动增强可以为此任务提供弱监督的数据。在我们的基准上评估了基于流水线和端到端预训练的多媒体 QA 模型,并表明它们实现了有希望的性能,但相当滞后于人类表现,因此为未来此挑战性新任务留下了很大的空间。
Dec, 2021
通过构建大规模的带有人工注释的 PM209 数据集,本研究提出了一个多模态产品手册问答(MPMQA)任务,其要求模型处理多模态内容并提供多模态答案,并进一步提出了一种统一模型,可以同时执行这两个子任务,并实现与多个任务特定模型相当的性能。
Apr, 2023
HybridQA 是一个基于异构信息的新的大规模问答数据集,通过对表格和文本信息的聚合完成问答,结果表明使用异构信息的混合模型可以获得高于基准模型的精确度。
Apr, 2020
本文提出了一种新的跨模态推理方式,即将图像和表格转换为统一的语言表示,以简化任务并利用先前训练好的语言模型,同时介绍了一种名为 Solar 的框架,实验结果表明,Solar 在两个数据集上的表现优于所有现有方法,并在 WebQA 排行榜上取得了最佳成绩。
Jun, 2023
通过引入 MemeMQA 和 ARSENAL,本研究分析了表情包在多模态沟通中的解释和理解,并展示了 MemeMQA 在回答准确性和文本生成等方面的优越性。
May, 2024
利用我们提出的多模态问答(MQA)框架,将多模态信息提取(MIE)任务统一为一个统一的片段提取和多项选择问答流水线,从而提高了各种类型的现成大型多模态模型在 MIE 任务上的性能,特别是在零样本和少样本情况下,我们的框架能够使 LMM 在与 ChatGPT 和 GPT-4 等更大的语言模型竞争或超越的 10B 参数尺度上获得更好的表现,从而将 MQA 框架作为利用 LMMs 解决 MIE 和其他下游多模态任务的一般原则。
Oct, 2023
本文提出了一种新的多表问题回答模型,称作 MultiTabQA,除了回答多表问题外,还能生成表格回答。为了实现有效的训练,我们构建了一个包括 132,645 个 SQL 查询和表格回答的预训练数据集。通过引入不同严格程度的特定于表格的评估指标,我们评估了生成的表格。经过在三个数据集(Spider、Atis 和 GeoQuery)上微调后,MultiTabQA 优于在多表 QA 环境中改编成的最先进的单表 QA 模型。
May, 2023
本文提出了一种多模态异构图神经网络来解决基于事实的视觉问答问题,该模型通过逐层的图卷积网络对问题相关证据进行迭代式推理,并在多种数据集上获得了最新的最佳成绩。
Jun, 2020
通过多问多答(MQMA)方法,在编码 - 解码变压器模型中进行文本 - VQA(Visual Question Answering)。通过多次将不同问题和内容输入到模型中进行预测,实现对同一图像的多问题回答预测。提出几个新颖的架构修改来支持 MQMA,并且通过 MQMA 去噪的预训练任务,使模型能够对多个问题以及相关答案进行对齐和划分。在多个文本 - VQA 数据集上,MQMA 预训练模型实现了与先前最先进方法相比的明显改进(OCR-VQA:+2.5%,TextVQA:+1.4%,ST-VQA:+0.6%,DocVQA:+1.1%)。
Nov, 2023