ManyModalQA：多模态输入下的语式消歧和问答

AAAIJan, 2020

ManyModalQA：多模态输入下的语式消歧和问答

ManyModalQA: Modality Disambiguation and QA over Diverse Inputs

Darryl Hannan, Akshay Jain, Mohit Bansal

TL;DR本文提出了一个新的多模态问答挑战 ManyModalQA，在这里代理必须考虑三个不同的模态：文本、图像和表格。我们收集数据的方式是爬取维基百科，并利用众包收集问题 - 答案对。我们的问题是有歧义的，因为包含答案的模态不仅仅基于问题就易于确定。我们构建一个模态选择器（或消歧器）网络，通过分析该模型，我们研究了问题中指示模态的哪些单词。接下来，我们构建了一个简单的基线 ManyModalQA 模型，该模型基于模态选择器的预测，触发相应的预训练单模态 QA 模型。我们提供一个新的多模态评估集，只提供一个微调集，在鼓励低资源泛化新任务时，期望现有数据集和方法能被转移。尽管基于基线模型的表现与人类表现之间存在显著差距，但我们希望这一挑战能鼓励研究多模态 QA 模型的端到端消歧和迁移学习。

Abstract

We present a new multimodal question answering challenge, manymodalqa, in which an agent must answer a question by considering three distinct modalities: text, images, and tables. We collect our data by scraping

multimodal question answering manymodalqa modality selector network ambiguity transfer learning

发现论文，激发创造

MultiModalQA: 文本、表格和图像的复杂问答

本文介绍了一个名为 “MultiModalQA (MMQA)” 的数据集，该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题，并演示了多模态多跳方法在解决这一任务中的必要性。

Apr, 2021

MPMQA：产品手册上的多模态问答

通过构建大规模的带有人工注释的 PM209 数据集，本研究提出了一个多模态产品手册问答（MPMQA）任务，其要求模型处理多模态内容并提供多模态答案，并进一步提出了一种统一模型，可以同时执行这两个子任务，并实现与多个任务特定模型相当的性能。

Apr, 2023

使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA

本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型，采用自我注意力机制进行不同模态的融合，并通过动态指针网络进行迭代式答案解码，相比于现有方法大幅度提高了 TextVQA 任务的性能。

Nov, 2019

基于多模态领域自适应的开放式视觉问答

本文提出了一种新颖的 VQA 有监督多模态域自适应方法，通过考虑所有模态在一起以及单独处理每个单独模态来对齐源域和目标域的数据分布，以学习跨不同领域和模态的联合特征嵌入，通过在 VQA 2.0 和 VizWhiz 数据集上进行广泛实验，表明了我们所提出方法在这个具有挑战性的 VQA 域自适应设置中胜过了现有的最先进的方法。

Nov, 2019

阅读，观察还是听取？解决多模态数据集所需的元素

通过利用少量人工注释，我们提出了一种两步方法来分析多模态数据集，为了在处理数据集时将每个多模态实例映射到所需的模态。我们在 TVQA 视频问答数据集上应用了我们的方法，并发现大多数问题可以用单一模态回答，而且没有对任何特定模态存在实质性偏见。此外，我们发现超过 70％的问题可以用几种不同的单模态策略来解决，例如通过观看视频或听音频，突出了 TVQA 中多模态整合的有限性。我们利用我们的注释并分析 MERLOT Reserve，发现它在处理基于图像的问题、文本和音频以及听觉说话人识别方面存在困难。根据我们的观察，我们引入了一个需要多个模态的新的测试集，观察到模型性能显著下降。我们的方法为多模态数据集提供了有价值的见解，并强调了开发更健壮模型的需求。

Jul, 2023

模型分析与评估：歧义问题回答

研究 Question Answering 模型回答模糊问题的挑战，探讨模型 / 数据扩展和自动评估指标对模型质量的影响，并研究模型答案的证据根据，旨在提供有关当前方法局限性的宝贵见解。

May, 2023

多模态问题回答的统一信息提取

利用我们提出的多模态问答（MQA）框架，将多模态信息提取（MIE）任务统一为一个统一的片段提取和多项选择问答流水线，从而提高了各种类型的现成大型多模态模型在 MIE 任务上的性能，特别是在零样本和少样本情况下，我们的框架能够使 LMM 在与 ChatGPT 和 GPT-4 等更大的语言模型竞争或超越的 10B 参数尺度上获得更好的表现，从而将 MQA 框架作为利用 LMMs 解决 MIE 和其他下游多模态任务的一般原则。

Oct, 2023

通过跨媒体知识提取和基础加固进行多媒体多跳新闻问答的 MuMuQA

本文介绍了一个包含 1,384 个跨媒体对象基于新闻文章的多步骤问题的 QA 评估基准，并提出了一个新颖的多媒体数据增强框架，用于自动增强可以为此任务提供弱监督的数据。在我们的基准上评估了基于流水线和端到端预训练的多媒体 QA 模型，并表明它们实现了有希望的性能，但相当滞后于人类表现，因此为未来此挑战性新任务留下了很大的空间。

Dec, 2021

多问题多答案文本视觉问答

通过多问多答（MQMA）方法，在编码 - 解码变压器模型中进行文本 - VQA（Visual Question Answering）。通过多次将不同问题和内容输入到模型中进行预测，实现对同一图像的多问题回答预测。提出几个新颖的架构修改来支持 MQMA，并且通过 MQMA 去噪的预训练任务，使模型能够对多个问题以及相关答案进行对齐和划分。在多个文本 - VQA 数据集上，MQMA 预训练模型实现了与先前最先进方法相比的明显改进（OCR-VQA：+2.5％，TextVQA：+1.4％，ST-VQA：+0.6％，DocVQA：+1.1％）。

Nov, 2023

MediFact 参加 MEDIQA-M3G 2024：多模态学习在皮肤科医学问答中的应用

本研究提出了一种弱监督学习方法，通过使用 MEDIQA-M3G 图像的 VGG16-CNN-SVM 模型，并通过多模态融合将视觉和文本信息联系起来，解决了传统方法在开放式医疗问答中的局限性，进一步促进了医学问答研究的发展，为临床决策支持系统的构建提供了新的思路，进而提高了医疗保健的服务水平。

Apr, 2024