面向生成视觉问答的多模态提示检索

Jun, 2023

面向生成视觉问答的多模态提示检索

Multimodal Prompt Retrieval for Generative Visual Question Answering

Timothy Ossowski, Junjie Hu

TL;DR提出了一种结合多模态提示检索和生成模型的方法，该方法可以在医学领域的视觉问题回答任务中比非检索方法提高高达30％的精度。

Abstract

Recent years have witnessed impressive results of pre-trained vision-language models on knowledge-intensive tasks such as visual question answering (VQA). Despite the recent advances in VQA, existing methods mainly adopt a discriminative formulation that predicts answers within a pre-d

发现论文，激发创造

通过文本生成统一视觉语言任务

该研究提出了一个统一框架，通过相同的语言建模目标，在单个体系结构中学习不同的任务，实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现，这种生成方法（在单个统一的体系结构下）显示出了与最先进的特定任务模型相当的性能，并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。

Feb, 2021

重新思考视觉问答中的评估实践：针对分布外泛化的案例研究

研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题，而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估，证明生成模型在大多数情况下对数据分布变化不太敏感，并在测试基准中表现更好。另外，我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后，本文重新审视了自动 VQA 评估度量的假设，并从经验上证明它们的严格性会反复惩罚模型的正确响应。

May, 2022

多模式提示下的零备和少备视频问答

近期的视觉-语言模型主要面临有限数据下的过拟合、灾难性遗忘以及视觉与语言之间的跨模态差距等挑战，本研究引入了一种参数高效的方法来解决这些问题，通过结合多模态提示学习和基于Transformer的映射网络，在预训练模型的冻结状态下实现。在几个视频问答基准测试中，我们的实验结果证明了我们的方法在性能和参数效率方面在零样本和少样本设置下的优越性。我们的代码可以通过该https网址获得。

Sep, 2023

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对VQA数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将VQA推广到多模态问答，探索与VQA相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023

MISS：一个用于医学视觉问答的生成预训练和微调方法

本文提出了一种基于多任务自监督学习的大规模医学VQA任务框架（MISS），将医学VQA作为生成任务，并通过多任务学习对齐图像-文本特征；此外，我们通过使用大语言模型（LLMs），在单模态图像数据集上扩展单一模态图像特征空间，使得传统医学视觉领域任务数据能够应用于VLP，实验证明我们的方法在较少的多模态数据集上取得了优异结果并展示了生成式VQA模型的优势。

Jan, 2024

GeReA: 针对基于知识的视觉问答的问题感知提示标题

我们提出了一种名为GeReA的生成-推理框架，利用视觉和语言信息激活了多模态大语言模型（MLLM）作为隐式知识引擎，用于基于知识的视觉问答，它在OK-VQA和A-OKVQA数据集上的测试准确率分别为66.5%和63.3%，超过了所有先前的最先进方法。

Feb, 2024

通过问题驱动的图像标题作为提示，增强视觉问答能力

通过在视觉问题回答（VQA）过程中利用图像描述作为中介步骤，建立零样本设置，探索了零样本VQA的影响。比较了最先进的图像描述模型对于不同问题类型的VQA性能在结构和语义上的影响，并在VQA过程中提出了一种简单高效的问题驱动图像描述方法，通过提取问题关键词、为每个图像-问题对生成描述，并将问题驱动的描述传输到大型语言模型中。研究发现利用图像描述和大型语言模型的能力，在零样本设置下能够实现竞争性的GQA性能。

Apr, 2024

探索多种方法在视觉问答中的应用

本研究探讨了使用生成对抗网络（GANs）、自编码器和注意力机制改进视觉问答（VQA）的创新方法。研究发现，通过利用一个平衡的VQA数据集，GAN-based方法提供了生成与图像和问题相关的答案嵌入的潜力，但在处理较复杂的任务时存在困难。相比之下，基于自编码器的技术专注于学习问题和图像的最佳嵌入，由于在处理复杂问题上能力更强，其结果与GAN-based方法相媲美。最后，注意力机制结合多模态紧凑双线性池化（MCB）来解决语言先验和注意力建模问题，但在复杂性和性能之间需要权衡。本研究强调了VQA领域的挑战和机遇，并提出了未来研究的方向，包括替代GAN的形式和注意力机制。

Apr, 2024

Boter: 基于知识的VQA的知识选择和问答引导

Boter框架是一个新型的知识选择和问答系统，通过利用多模态大型语言模型的强大感知能力，显著提升了开放域知识问答的性能，取得了62.83％的最高准确率。

Apr, 2024

SK-VQA：用于训练上下文增强的多模态LLM的大规模合成知识生成

我们生成了一个包含超过200万个问题-答案对的大型综合多模态数据集SK-VQA，该数据集需要外部知识来确定最终答案。通过广泛的实验，我们证明我们的合成数据集不仅可以作为一个具有挑战性的基准测试，而且对于调整现有的生成性多模态模型以进行上下文增强生成也非常有效。

Jun, 2024