图像上叠加文本的视觉问答（VQA）

Jun, 2023

图像上叠加文本的视觉问答（VQA）

Visual Question Answering (VQA) on Images with Superimposed Text

Venkat Kodali, Daniel Berleant

TL;DR对于医学图像上的叠加文本注释，本研究探讨其对视觉问答（VQA）任务的影响，并发现这种文本元信息的添加不会严重降低 VQA 性能指标，从而验证了在使用 AI 技术进行 VQA 任务时，在医学图像上叠加文本的做法的可行性。这项研究在提升对 VQA 的理解，尤其是在医疗和医学领域方面具有重要意义。

Abstract

superimposed text annotations have been under-investigated, yet are ubiquitous, useful and important, especially in medical images. medical image

发现论文，激发创造

医学图像视觉问答的问题中心模型

本论文提出一种基于视觉问答的方法来查询深度学习模型的行为，通过在多个医学和自然图像数据集上进行实验，证明该方法较目前方法具有相同或更高的准确度，有效地解决了深度学习方法缺乏透明性的问题。

Mar, 2020

医学视觉问答的自监督视觉语言预训练

本文介绍了一种自我监督方法 - 对遮蔽图像建模、遮蔽语言建模、图像文本匹配和图像文本对齐进行对比学习的 M2I2 方法，应用于医学图像字幕数据集的预训练，并对下游医学 VQA 任务进行微调。该方法在三个公共医学 VQA 数据集上实现了最先进的性能。

Nov, 2022

利用联合自监督学习的医学视觉问答

本研究提出一种编码器-解码器框架，利用自注意机制跨图像文本双模态表示，并通过自监督多任务学习在大规模医学图像字幕数据集上进行预训练，并在小规模医学VQA数据集上进行微调，取得了比基线和SOTA方法更好的性能。

Feb, 2023

Q2ATransformer: 通过答案查询解码器提高医学VQA

本文提出了一种名为Q2ATransformer的新型Transformer框架，将分类和生成方法的优势相结合，为医学图像问题回答系统提供了一种统一的处理方式。通过将可学习的候选答案嵌入到Transformer解码器中，使得我们的方法能够像生成方法一样与答案信息交互进行预测，同时通过分类方法减少搜索空间，从而实现了在两个医学VQA基准测试上的新的最高性能

Apr, 2023

PMC-VQA：基于视觉指导的医学视觉问答模型优化

本研究旨在通过提出一种基于生成的模型方法（与大型自然语言模型结合）来解决医学图像中的问题，通过建立大规模的医疗视觉问答数据集，即PMC-VQA，该数据集包含149k张图片的227k个问答对，并进行预处理和微调以超越现有研究成果。

May, 2023

利用单模态和多模态对比损失进行带有遮掩视觉和语言预训练，用于医学视觉问答

本文提出了一种新的自我监督方法来处理医学图像视觉问答问题，通过利用医学图像标题数据集来学习输入图像和文本的单模和多模特征表示，预训练模型后将其转移到下游的医学VQA任务中，已在三个公开的医学VQA数据集上取得了最先进的表现，具有显着的准确度提高。

Jul, 2023

医学领域的视觉问答

通过使用领域特定的预训练策略，包括一种新颖的对比学习预训练方法，解决医学视觉问答任务中数据集规模小的问题，我们的模型在VQA-Med 2019测试集上达到了60%的准确率，与其他最先进的Med-VQA模型具有可比性。

Sep, 2023

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对VQA数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将VQA推广到多模态问答，探索与VQA相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023

BESTMVQA：医学视觉问答的基准评估系统

医学视觉问答（Med-VQA）是医疗行业中非常重要的任务之一，通过医学图像回答自然语言问题。本文开发了一种用于医学视觉问答的基准评估系统（BESTMVQA），通过此系统，用户可以自动构建Med-VQA数据集，并选择多种先进模型进行综合实证研究。该系统从临床数据中自动构建新数据集，通过在统一的实验环境中对先进模型进行评估，克服了现有工作的局限性。

Dec, 2023

MISS：一个用于医学视觉问答的生成预训练和微调方法

本文提出了一种基于多任务自监督学习的大规模医学VQA任务框架（MISS），将医学VQA作为生成任务，并通过多任务学习对齐图像-文本特征；此外，我们通过使用大语言模型（LLMs），在单模态图像数据集上扩展单一模态图像特征空间，使得传统医学视觉领域任务数据能够应用于VLP，实验证明我们的方法在较少的多模态数据集上取得了优异结果并展示了生成式VQA模型的优势。

Jan, 2024