MPMQA：产品手册上的多模态问答

Apr, 2023

MPMQA: Multimodal Question Answering on Product Manuals

Liang Zhang, Anwen Hu, Jing Zhang, Shuo Hu, Qin Jin

TL;DR通过构建大规模的带有人工注释的 PM209 数据集，本研究提出了一个多模态产品手册问答（MPMQA）任务，其要求模型处理多模态内容并提供多模态答案，并进一步提出了一种统一模型，可以同时执行这两个子任务，并实现与多个任务特定模型相当的性能。

Abstract

visual contents, such as illustrations and images, play a big role in product manual understanding. Existing Product Manual Question Answering (PMQA) datasets tend to ignore visual contents and only retain textua

multimodal product manual question answering visual contents semantic regions pm209 dataset unified model

发现论文，激发创造

PDF-MVQA：基于 PDF 的视觉问答多模信息检索数据集

针对长篇研究期刊文章等富有文本内容的视觉丰富文档，我们提出了 PDF-MVQA，旨在解决现有研究主要关注稀缺文本的现实世界文档的问题，而在理解多个页面之间的层次语义关系以定位多模态组件方面仍面临挑战。我们的贡献包括介绍了一个全面的 PDF 文档视觉问答数据集，用于研究文本主导文档中的语义层次布局结构。我们还提出了新的视觉丰富文档问答框架，同时考虑文档布局中的文本内容和关系，将页面级别理解扩展到整个多页文档。通过这项工作，我们旨在提高现有视觉和语言模型在处理视觉丰富文档视觉问答时的能力。

Apr, 2024

MultiModalQA: 文本、表格和图像的复杂问答

本文介绍了一个名为 “MultiModalQA (MMQA)” 的数据集，该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题，并演示了多模态多跳方法在解决这一任务中的必要性。

Apr, 2021

多问题多答案文本视觉问答

通过多问多答（MQMA）方法，在编码 - 解码变压器模型中进行文本 - VQA（Visual Question Answering）。通过多次将不同问题和内容输入到模型中进行预测，实现对同一图像的多问题回答预测。提出几个新颖的架构修改来支持 MQMA，并且通过 MQMA 去噪的预训练任务，使模型能够对多个问题以及相关答案进行对齐和划分。在多个文本 - VQA 数据集上，MQMA 预训练模型实现了与先前最先进方法相比的明显改进（OCR-VQA：+2.5％，TextVQA：+1.4％，ST-VQA：+0.6％，DocVQA：+1.1％）。

Nov, 2023

面向生成视觉问答的多模态提示检索

提出了一种结合多模态提示检索和生成模型的方法，该方法可以在医学领域的视觉问题回答任务中比非检索方法提高高达 30％的精度。

Jun, 2023

通过视觉问答对将探测信号融入多模态机器翻译

本研究论文通过深入研究多模式机器翻译（MMT），探讨了 MMT 系统在源文本完整时对视觉信息的敏感性降低的现象，并提出了一种新的方法来生成并行的视觉问答（VQA）风格对，以促进更强大的跨模态交互。使用大型语言模型（LLMs），将 MMT 中的探测信号显式建模为 VQA 风格数据，创建了 Multi30K-VQA 数据集，并引入了 MMT-VQA 多任务学习框架，将来自数据集的显式探测信号纳入 MMT 训练过程。在两个广泛使用的基准测试中验证了该新方法的有效性。本文提供的代码和数据可在 https://github.com/libeineu/MMT-VQA 获取。

Oct, 2023

ManyModalQA：多模态输入下的语式消歧和问答

本文提出了一个新的多模态问答挑战 ManyModalQA，在这里代理必须考虑三个不同的模态：文本、图像和表格。我们收集数据的方式是爬取维基百科，并利用众包收集问题 - 答案对。我们的问题是有歧义的，因为包含答案的模态不仅仅基于问题就易于确定。我们构建一个模态选择器（或消歧器）网络，通过分析该模型，我们研究了问题中指示模态的哪些单词。接下来，我们构建了一个简单的基线 ManyModalQA 模型，该模型基于模态选择器的预测，触发相应的预训练单模态 QA 模型。我们提供一个新的多模态评估集，只提供一个微调集，在鼓励低资源泛化新任务时，期望现有数据集和方法能被转移。尽管基于基线模型的表现与人类表现之间存在显著差距，但我们希望这一挑战能鼓励研究多模态 QA 模型的端到端消歧和迁移学习。

Jan, 2020

多模态问题回答的统一信息提取

利用我们提出的多模态问答（MQA）框架，将多模态信息提取（MIE）任务统一为一个统一的片段提取和多项选择问答流水线，从而提高了各种类型的现成大型多模态模型在 MIE 任务上的性能，特别是在零样本和少样本情况下，我们的框架能够使 LMM 在与 ChatGPT 和 GPT-4 等更大的语言模型竞争或超越的 10B 参数尺度上获得更好的表现，从而将 MQA 框架作为利用 LMMs 解决 MIE 和其他下游多模态任务的一般原则。

Oct, 2023

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

基于理性推理的多模态迷因问答

通过引入 MemeMQA 和 ARSENAL，本研究分析了表情包在多模态沟通中的解释和理解，并展示了 MemeMQA 在回答准确性和文本生成等方面的优越性。

May, 2024

多语种图像问答的数据集及方法：您正在与机器交流吗？

本文介绍了基于 LSTM 和卷积神经网络的 mQA 模型，其可针对图像内容回答包括中英文在内的多语言问题，并使用 Freestyle Multilingual Image Question Answering (FM-IQA) 数据集进行评估，结果表明该模型在 64.7% 的情况下与人类回答无异，评分为 1.454。

May, 2015