MPMQA:产品手册上的多模态问答
针对长篇研究期刊文章等富有文本内容的视觉丰富文档,我们提出了 PDF-MVQA,旨在解决现有研究主要关注稀缺文本的现实世界文档的问题,而在理解多个页面之间的层次语义关系以定位多模态组件方面仍面临挑战。我们的贡献包括介绍了一个全面的 PDF 文档视觉问答数据集,用于研究文本主导文档中的语义层次布局结构。我们还提出了新的视觉丰富文档问答框架,同时考虑文档布局中的文本内容和关系,将页面级别理解扩展到整个多页文档。通过这项工作,我们旨在提高现有视觉和语言模型在处理视觉丰富文档视觉问答时的能力。
Apr, 2024
本文介绍了一个名为 “MultiModalQA (MMQA)” 的数据集,该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题,并演示了多模态多跳方法在解决这一任务中的必要性。
Apr, 2021
通过多问多答(MQMA)方法,在编码 - 解码变压器模型中进行文本 - VQA(Visual Question Answering)。通过多次将不同问题和内容输入到模型中进行预测,实现对同一图像的多问题回答预测。提出几个新颖的架构修改来支持 MQMA,并且通过 MQMA 去噪的预训练任务,使模型能够对多个问题以及相关答案进行对齐和划分。在多个文本 - VQA 数据集上,MQMA 预训练模型实现了与先前最先进方法相比的明显改进(OCR-VQA:+2.5%,TextVQA:+1.4%,ST-VQA:+0.6%,DocVQA:+1.1%)。
Nov, 2023
本研究论文通过深入研究多模式机器翻译(MMT),探讨了 MMT 系统在源文本完整时对视觉信息的敏感性降低的现象,并提出了一种新的方法来生成并行的视觉问答(VQA)风格对,以促进更强大的跨模态交互。使用大型语言模型(LLMs),将 MMT 中的探测信号显式建模为 VQA 风格数据,创建了 Multi30K-VQA 数据集,并引入了 MMT-VQA 多任务学习框架,将来自数据集的显式探测信号纳入 MMT 训练过程。在两个广泛使用的基准测试中验证了该新方法的有效性。本文提供的代码和数据可在 https://github.com/libeineu/MMT-VQA 获取。
Oct, 2023
本文提出了一个新的多模态问答挑战 ManyModalQA,在这里代理必须考虑三个不同的模态:文本、图像和表格。我们收集数据的方式是爬取维基百科,并利用众包收集问题 - 答案对。我们的问题是有歧义的,因为包含答案的模态不仅仅基于问题就易于确定。我们构建一个模态选择器(或消歧器)网络,通过分析该模型,我们研究了问题中指示模态的哪些单词。接下来,我们构建了一个简单的基线 ManyModalQA 模型,该模型基于模态选择器的预测,触发相应的预训练单模态 QA 模型。我们提供一个新的多模态评估集,只提供一个微调集,在鼓励低资源泛化新任务时,期望现有数据集和方法能被转移。尽管基于基线模型的表现与人类表现之间存在显著差距,但我们希望这一挑战能鼓励研究多模态 QA 模型的端到端消歧和迁移学习。
Jan, 2020
利用我们提出的多模态问答(MQA)框架,将多模态信息提取(MIE)任务统一为一个统一的片段提取和多项选择问答流水线,从而提高了各种类型的现成大型多模态模型在 MIE 任务上的性能,特别是在零样本和少样本情况下,我们的框架能够使 LMM 在与 ChatGPT 和 GPT-4 等更大的语言模型竞争或超越的 10B 参数尺度上获得更好的表现,从而将 MQA 框架作为利用 LMMs 解决 MIE 和其他下游多模态任务的一般原则。
Oct, 2023
该论文训练了一个视觉问答系统,使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统,该数据集使用模板自动生成,模型的最高准确性超过了人类专家水平。
Aug, 2022
通过引入 MemeMQA 和 ARSENAL,本研究分析了表情包在多模态沟通中的解释和理解,并展示了 MemeMQA 在回答准确性和文本生成等方面的优越性。
May, 2024
本文介绍了基于 LSTM 和卷积神经网络的 mQA 模型,其可针对图像内容回答包括中英文在内的多语言问题,并使用 Freestyle Multilingual Image Question Answering (FM-IQA) 数据集进行评估,结果表明该模型在 64.7% 的情况下与人类回答无异,评分为 1.454。
May, 2015