Med-Flamingo: 一种多模态医学少样本学习器
本研究旨在通过提出一种基于生成的模型方法(与大型自然语言模型结合)来解决医学图像中的问题,通过建立大规模的医疗视觉问答数据集,即PMC-VQA,该数据集包含149k张图片的227k个问答对,并进行预处理和微调以超越现有研究成果。
May, 2023
本文提出了一种利用 PubMed Central 数据集中的图面注释数据、GPT-4 生成提问数据和新型课程学习方法一起训练的大型语言与视觉助手 (LLaVA-Med),该助手能回答有关生物医学图像的开放性研究问题,并在标准的生物医学视觉问答数据集上表现出优异的多模态会话能力。
Jun, 2023
本文提出了一种新的自我监督方法来处理医学图像视觉问答问题,通过利用医学图像标题数据集来学习输入图像和文本的单模和多模特征表示,预训练模型后将其转移到下游的医学VQA任务中,已在三个公开的医学VQA数据集上取得了最先进的表现,具有显着的准确度提高。
Jul, 2023
通过使用领域特定的预训练策略,包括一种新颖的对比学习预训练方法,解决医学视觉问答任务中数据集规模小的问题,我们的模型在VQA-Med 2019测试集上达到了60%的准确率,与其他最先进的Med-VQA模型具有可比性。
Sep, 2023
本文提出了一种基于多任务自监督学习的大规模医学VQA任务框架(MISS),将医学VQA作为生成任务,并通过多任务学习对齐图像-文本特征;此外,我们通过使用大语言模型(LLMs),在单模态图像数据集上扩展单一模态图像特征空间,使得传统医学视觉领域任务数据能够应用于VLP,实验证明我们的方法在较少的多模态数据集上取得了优异结果并展示了生成式VQA模型的优势。
Jan, 2024
我们介绍了OmniMedVQA,一个来自75个不同医疗数据集的医疗视觉问答基准,其中包括12个不同的模态和超过20个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难,甚至在医学专业化的模型中也表现出劣于通用领域模型的性能,这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。
Feb, 2024
医学视觉语言模型结合了计算机视觉和自然语言处理,用于分析视觉和文本式医学数据。我们的论文回顾了最近在开发医学领域专用的视觉语言模型方面的进展,重点关注医学报告生成和视觉问答模型。我们提供了自然语言处理和计算机视觉的背景,解释了如何将两个领域的技术集成到视觉语言模型中,以实现对多模态数据的学习。我们讨论的关键领域包括医学视觉语言数据集的探索,最近有价值的医学视觉语言模型中所采用的体系结构和预训练策略的深入分析,以及评估指标在医学报告生成和视觉问答性能评估中的综合讨论。我们还强调了当前的挑战,并提出了未来的发展方向,包括增强临床有效性和解决患者隐私问题。总的来说,我们的综述总结了最近在开发视觉语言模型以利用多模态医学数据改进医疗应用方面的进展。
Mar, 2024
通过设计半自动注释过程,构建了基于多模态大型语言模型生成中间医疗决策理由的新的基准MedVQA数据集R-RAD和R-SLAKE,并将其纳入训练过程中,通过三种不同的策略生成决策结果和相应的理由,从而清楚地展示推理过程中的医疗决策过程,实验证明该方法在R-RAD上能达到83.5%的准确率,在R-SLAKE上能达到86.3%的准确率,显著优于现有最先进的基线模型。
Apr, 2024
通过在医学领域中使用大型视觉和语言模型,在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后,提出了一种医学视觉语言模型。这个模型在SLAKE 1.0医学问答(MedVQA)数据集上实现了最新的性能,整体准确率为87.5%,并在另一个MedVQA数据集VQA-RAD上展现了强大的性能,整体准确率为73.2%。
Apr, 2024
我们的研究在生物医学领域提出了一个新的指导数据集,利用医学图像文本对,提出了一种新的图像编码策略,通过使用分层表示改善了精细的生物医学视觉理解,并且开发了LLama3-Med模型,在生物医学视觉问答基准测试中实现了最先进的零-shot性能,相比于以前的方法,平均性能提高超过10%,这些进展为医疗专业人员提供了更准确可靠的工具,弥补了当前多模态对话助手中的差距,并促进了医疗人工智能的进一步创新。
Jun, 2024