融合领域适应视觉和语言模型的医学视觉问答

Apr, 2024

融合领域适应视觉和语言模型的医学视觉问答

Fusion of Domain-Adapted Vision and Language Models for Medical Visual Question Answering

Cuong Nhat Ha, Shima Asaadi, Sanjeev Kumar Karn, Oladimeji Farri, Tobias Heimann...

TL;DR通过在医学领域中使用大型视觉和语言模型，在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后，提出了一种医学视觉语言模型。这个模型在SLAKE 1.0医学问答(MedVQA)数据集上实现了最新的性能，整体准确率为87.5%，并在另一个MedVQA数据集VQA-RAD上展现了强大的性能，整体准确率为73.2%。

Abstract

vision-language models, while effective in general domains and showing strong performance in diverse multi-modal applications like visual question-answering (VQA), struggle to maintain the same level of effectiveness in more specialized domains, e.g., medical. We propose a medical visi

发现论文，激发创造

SLAKE: 基于语义标注的医学视觉问答增强数据集

本文提出了一个大型的双语数据集SLAKE，包含全面的语义标签和医学知识库，可以用于促进Med-VQA系统的开发和评估。

Feb, 2021

PMC-VQA：基于视觉指导的医学视觉问答模型优化

本研究旨在通过提出一种基于生成的模型方法（与大型自然语言模型结合）来解决医学图像中的问题，通过建立大规模的医疗视觉问答数据集，即PMC-VQA，该数据集包含149k张图片的227k个问答对，并进行预处理和微调以超越现有研究成果。

May, 2023

利用单模态和多模态对比损失进行带有遮掩视觉和语言预训练，用于医学视觉问答

本文提出了一种新的自我监督方法来处理医学图像视觉问答问题，通过利用医学图像标题数据集来学习输入图像和文本的单模和多模特征表示，预训练模型后将其转移到下游的医学VQA任务中，已在三个公开的医学VQA数据集上取得了最先进的表现，具有显着的准确度提高。

Jul, 2023

医学领域的视觉问答

通过使用领域特定的预训练策略，包括一种新颖的对比学习预训练方法，解决医学视觉问答任务中数据集规模小的问题，我们的模型在VQA-Med 2019测试集上达到了60%的准确率，与其他最先进的Med-VQA模型具有可比性。

Sep, 2023

MISS：一个用于医学视觉问答的生成预训练和微调方法

本文提出了一种基于多任务自监督学习的大规模医学VQA任务框架（MISS），将医学VQA作为生成任务，并通过多任务学习对齐图像-文本特征；此外，我们通过使用大语言模型（LLMs），在单模态图像数据集上扩展单一模态图像特征空间，使得传统医学视觉领域任务数据能够应用于VLP，实验证明我们的方法在较少的多模态数据集上取得了优异结果并展示了生成式VQA模型的优势。

Jan, 2024

OmniMedVQA：医学LVLM的新大规模综合评估基准

我们介绍了OmniMedVQA，一个来自75个不同医疗数据集的医疗视觉问答基准，其中包括12个不同的模态和超过20个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难，甚至在医学专业化的模型中也表现出劣于通用领域模型的性能，这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。

Feb, 2024

医疗报告生成和视觉问答的视觉语言模型综述

医学视觉语言模型结合了计算机视觉和自然语言处理，用于分析视觉和文本式医学数据。我们的论文回顾了最近在开发医学领域专用的视觉语言模型方面的进展，重点关注医学报告生成和视觉问答模型。我们提供了自然语言处理和计算机视觉的背景，解释了如何将两个领域的技术集成到视觉语言模型中，以实现对多模态数据的学习。我们讨论的关键领域包括医学视觉语言数据集的探索，最近有价值的医学视觉语言模型中所采用的体系结构和预训练策略的深入分析，以及评估指标在医学报告生成和视觉问答性能评估中的综合讨论。我们还强调了当前的挑战，并提出了未来的发展方向，包括增强临床有效性和解决患者隐私问题。总的来说，我们的综述总结了最近在开发视觉语言模型以利用多模态医学数据改进医疗应用方面的进展。

Mar, 2024

通过梯度引导的模型扰动增强医学视觉问答任务的泛化能力

通过利用预训练的视觉语言模型，并结合数据增强、正则化方法以及基于梯度引导的参数扰动，该研究提出了一种改善医学可视化问答任务的模型泛化性能的方法，并在两个数据集上获得了有竞争力的结果。

Mar, 2024

推进生物医学中高分辨率视觉语言模型

我们的研究在生物医学领域提出了一个新的指导数据集，利用医学图像文本对，提出了一种新的图像编码策略，通过使用分层表示改善了精细的生物医学视觉理解，并且开发了LLama3-Med模型，在生物医学视觉问答基准测试中实现了最先进的零-shot性能，相比于以前的方法，平均性能提高超过10％，这些进展为医疗专业人员提供了更准确可靠的工具，弥补了当前多模态对话助手中的差距，并促进了医疗人工智能的进一步创新。

Jun, 2024

大型语言和视觉语言模型的医学适应性：我们取得进展了吗？

本研究针对现有医学领域中大语言模型（LLMs）和视觉语言模型（VLMs）的适应性问题进行了深入探讨，指出这些模型在医学问答任务中的表现并未如预期般优于基础模型。该论文通过对七个公共"医学"LLM和两个VLM的比较分析，发现医疗模型在零样本和少样本提示条件下的性能普遍低于基础模型，进而提出未来研究中需要加强的有效方法。

Nov, 2024