PMC-VQA：基于视觉指导的医学视觉问答模型优化

May, 2023

PMC-VQA：基于视觉指导的医学视觉问答模型优化

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Weixiong Lin, Ya Zhang...

TL;DR本研究旨在通过提出一种基于生成的模型方法（与大型自然语言模型结合）来解决医学图像中的问题，通过建立大规模的医疗视觉问答数据集，即PMC-VQA，该数据集包含149k张图片的227k个问答对，并进行预处理和微调以超越现有研究成果。

Abstract

In this paper, we focus on the problem of medical visual question answering (MedVQA), which is crucial in efficiently interpreting medical images with vital clinic-relevant information. Firstly, we reframe the problem of MedVQA as a generation task that naturally follows the human-mach

发现论文，激发创造

医学视觉问答的自监督视觉语言预训练

本文介绍了一种自我监督方法 - 对遮蔽图像建模、遮蔽语言建模、图像文本匹配和图像文本对齐进行对比学习的 M2I2 方法，应用于医学图像字幕数据集的预训练，并对下游医学 VQA 任务进行微调。该方法在三个公共医学 VQA 数据集上实现了最先进的性能。

Nov, 2022

使用多模态预训练的检索增强型生物医学视觉问答系统RAMM

本文介绍了一种针对生物医学问题的图像和文字的多模态预训练和微调方法，该方法使用检索增强来克服数据限制问题，并收集了一个名为PMCPM的新生物医学数据集，实现了目前最先进的性能。

Mar, 2023

医学视觉问答中的本地化问题

文章提出了一种针对医学图像的视觉问答模型，该模型能够考虑上下文并回答关于图片区域的问题，实验结果表明该方法在三个数据集上优于现有方法。

Jul, 2023

利用单模态和多模态对比损失进行带有遮掩视觉和语言预训练，用于医学视觉问答

本文提出了一种新的自我监督方法来处理医学图像视觉问答问题，通过利用医学图像标题数据集来学习输入图像和文本的单模和多模特征表示，预训练模型后将其转移到下游的医学VQA任务中，已在三个公开的医学VQA数据集上取得了最先进的表现，具有显着的准确度提高。

Jul, 2023

医学领域的视觉问答

通过使用领域特定的预训练策略，包括一种新颖的对比学习预训练方法，解决医学视觉问答任务中数据集规模小的问题，我们的模型在VQA-Med 2019测试集上达到了60%的准确率，与其他最先进的Med-VQA模型具有可比性。

Sep, 2023

BESTMVQA：医学视觉问答的基准评估系统

医学视觉问答（Med-VQA）是医疗行业中非常重要的任务之一，通过医学图像回答自然语言问题。本文开发了一种用于医学视觉问答的基准评估系统（BESTMVQA），通过此系统，用户可以自动构建Med-VQA数据集，并选择多种先进模型进行综合实证研究。该系统从临床数据中自动构建新数据集，通过在统一的实验环境中对先进模型进行评估，克服了现有工作的局限性。

Dec, 2023

MISS：一个用于医学视觉问答的生成预训练和微调方法

本文提出了一种基于多任务自监督学习的大规模医学VQA任务框架（MISS），将医学VQA作为生成任务，并通过多任务学习对齐图像-文本特征；此外，我们通过使用大语言模型（LLMs），在单模态图像数据集上扩展单一模态图像特征空间，使得传统医学视觉领域任务数据能够应用于VLP，实验证明我们的方法在较少的多模态数据集上取得了优异结果并展示了生成式VQA模型的优势。

Jan, 2024

LaPA：医学视觉问答的潜在提示辅助模型

给出一个概述只需一句简短的中文描述是：本研究提出了LaPA模型，用于医学视觉问答。通过设计潜在提示生成模块、多模态融合块、和先验知识融合模块，利用潜在提示从单模态和多模态特征提取临床相关信息，并结合图像-语言跨模态信息预测最终答案。实验结果表明LaPA模型在三个公开的医学视觉问答数据集上胜过了现有的最先进模型ARL，分别在VQA-RAD、SLAKE和VQA-2019上达到了1.83%、0.63%和1.80%的改进。

Apr, 2024

融合领域适应视觉和语言模型的医学视觉问答

通过在医学领域中使用大型视觉和语言模型，在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后，提出了一种医学视觉语言模型。这个模型在SLAKE 1.0医学问答(MedVQA)数据集上实现了最新的性能，整体准确率为87.5%，并在另一个MedVQA数据集VQA-RAD上展现了强大的性能，整体准确率为73.2%。

Apr, 2024

面向医疗视觉问答的定向视觉提示

本研究解决了医疗视觉问答（Med-VQA）中模型视觉理解能力不足的问题，提出了定向视觉提示的新方法，以提升多模态大型语言模型（MLLMs）在区域性问题上的表现。研究发现，结合孤立区域与上下文区域的定制视觉提示能够显著增强模型的视觉理解能力，展示了该方法在多个数据集上的有效性。

Aug, 2024