多问题多答案文本视觉问答

Nov, 2023

Multiple-Question Multiple-Answer Text-VQA

Peng Tang, Srikar Appalaraju, R. Manmatha, Yusheng Xie, Vijay Mahadevan

TL;DR通过多问多答（MQMA）方法，在编码 - 解码变压器模型中进行文本 - VQA（Visual Question Answering）。通过多次将不同问题和内容输入到模型中进行预测，实现对同一图像的多问题回答预测。提出几个新颖的架构修改来支持 MQMA，并且通过 MQMA 去噪的预训练任务，使模型能够对多个问题以及相关答案进行对齐和划分。在多个文本 - VQA 数据集上，MQMA 预训练模型实现了与先前最先进方法相比的明显改进（OCR-VQA：+2.5％，TextVQA：+1.4％，ST-VQA：+0.6％，DocVQA：+1.1％）。

Abstract

We present multiple-question multiple-answer (MQMA), a novel approach to do text-vqa in encoder-decoder transformer models. The

multiple-question multiple-answer text-vqa encoder-decoder transformer models multi-modal content mqma denoising pre-training task

发现论文，激发创造

使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA

本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型，采用自我注意力机制进行不同模态的融合，并通过动态指针网络进行迭代式答案解码，相比于现有方法大幅度提高了 TextVQA 任务的性能。

Nov, 2019

MultiModalQA: 文本、表格和图像的复杂问答

本文介绍了一个名为 “MultiModalQA (MMQA)” 的数据集，该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题，并演示了多模态多跳方法在解决这一任务中的必要性。

Apr, 2021

面向视觉问答中生成答案和解释的统一模型

提出了一种基于多任务学习的统一模型（UMAE）来解决现有的视觉问答系统中存在的回答和解释分离的问题，其方法涉及在训练数据集中添加人工提示令牌，并在各种 VQA 相关任务上进行细调，实验证明该模型在准确性、解释性和领域外表现等方面均得到了明显的提高。

Jan, 2023

线索优先：增强型多项选择题解答

该论文介绍了一种基于文本生成模型的、通过生成提示信息来提高多项选择题的准确性的算法 GenMC，该算法在多项选择题上的表现优于传统文本生成模型。

Apr, 2022

利用联合自监督学习的医学视觉问答

本研究提出一种编码器 - 解码器框架，利用自注意机制跨图像文本双模态表示，并通过自监督多任务学习在大规模医学图像字幕数据集上进行预训练，并在小规模医学 VQA 数据集上进行微调，取得了比基线和 SOTA 方法更好的性能。

Feb, 2023

MISS：一个用于医学视觉问答的生成预训练和微调方法

本文提出了一种基于多任务自监督学习的大规模医学 VQA 任务框架（MISS），将医学 VQA 作为生成任务，并通过多任务学习对齐图像 - 文本特征；此外，我们通过使用大语言模型（LLMs），在单模态图像数据集上扩展单一模态图像特征空间，使得传统医学视觉领域任务数据能够应用于 VLP，实验证明我们的方法在较少的多模态数据集上取得了优异结果并展示了生成式 VQA 模型的优势。

Jan, 2024

MPMQA：产品手册上的多模态问答

通过构建大规模的带有人工注释的 PM209 数据集，本研究提出了一个多模态产品手册问答（MPMQA）任务，其要求模型处理多模态内容并提供多模态答案，并进一步提出了一种统一模型，可以同时执行这两个子任务，并实现与多个任务特定模型相当的性能。

Apr, 2023

根据要求进行设计：利用视觉问答进行多模态预训练

我们利用多模态预训练中的视觉问题回答（VQA）指导框架，聚焦目标病理特征，通过医学报告中的描述设计了关联不同疾病的多粒度问题 - 答案对，并提出了一种基于准文本特征变换的新型预训练框架，将视觉特征转化为接近文本领域的准文本空间，缩小了视觉 - 语言差距，实现了模态对齐。在四个下游任务（报告生成、分类、分割和检测）的五个数据集上，广泛的实验证明了我们的框架相比其他最先进的方法的优越性。我们的代码将在接受后发布。

Mar, 2024

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

多页文档视觉问答使用自注意力评分机制

多页文档视觉问答任务的新方法和有效训练策略，利用视觉特征对文档页进行相关性评分，可在多页场景中提供与最新技术相媲美的性能，且对 GPU 资源需求较少。

Apr, 2024