超越炒作:对医疗场景中的视觉语言模型的冷静分析
我们介绍了OmniMedVQA,一个来自75个不同医疗数据集的医疗视觉问答基准,其中包括12个不同的模态和超过20个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难,甚至在医学专业化的模型中也表现出劣于通用领域模型的性能,这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。
Feb, 2024
医学视觉语言模型结合了计算机视觉和自然语言处理,用于分析视觉和文本式医学数据。我们的论文回顾了最近在开发医学领域专用的视觉语言模型方面的进展,重点关注医学报告生成和视觉问答模型。我们提供了自然语言处理和计算机视觉的背景,解释了如何将两个领域的技术集成到视觉语言模型中,以实现对多模态数据的学习。我们讨论的关键领域包括医学视觉语言数据集的探索,最近有价值的医学视觉语言模型中所采用的体系结构和预训练策略的深入分析,以及评估指标在医学报告生成和视觉问答性能评估中的综合讨论。我们还强调了当前的挑战,并提出了未来的发展方向,包括增强临床有效性和解决患者隐私问题。总的来说,我们的综述总结了最近在开发视觉语言模型以利用多模态医学数据改进医疗应用方面的进展。
Mar, 2024
通过设计半自动注释过程,构建了基于多模态大型语言模型生成中间医疗决策理由的新的基准MedVQA数据集R-RAD和R-SLAKE,并将其纳入训练过程中,通过三种不同的策略生成决策结果和相应的理由,从而清楚地展示推理过程中的医疗决策过程,实验证明该方法在R-RAD上能达到83.5%的准确率,在R-SLAKE上能达到86.3%的准确率,显著优于现有最先进的基线模型。
Apr, 2024
通过在医学领域中使用大型视觉和语言模型,在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后,提出了一种医学视觉语言模型。这个模型在SLAKE 1.0医学问答(MedVQA)数据集上实现了最新的性能,整体准确率为87.5%,并在另一个MedVQA数据集VQA-RAD上展现了强大的性能,整体准确率为73.2%。
Apr, 2024
介绍了Surgical-LVLM,这是一种专为复杂手术场景定制的个性化大型视觉-语言模型,通过引入VP-LoRA模块和TIT模块,能够在手术背景下理解复杂的视觉-语言任务,并在多个基准测试中展现了出色的性能,为自动化手术辅导领域做出了贡献。
Mar, 2024
我们的研究在生物医学领域提出了一个新的指导数据集,利用医学图像文本对,提出了一种新的图像编码策略,通过使用分层表示改善了精细的生物医学视觉理解,并且开发了LLama3-Med模型,在生物医学视觉问答基准测试中实现了最先进的零-shot性能,相比于以前的方法,平均性能提高超过10%,这些进展为医疗专业人员提供了更准确可靠的工具,弥补了当前多模态对话助手中的差距,并促进了医疗人工智能的进一步创新。
Jun, 2024
本研究针对现有医疗领域的多模态评估基准存在的局限,如有限的临床相关性和评估不完整性,提出了GMAI-MMBench。该基准基于多样化的医学数据,包括285个数据集和4种感知粒度,旨在全面评估大型视觉语言模型在医疗应用中的有效性。研究显示,当前先进模型如GPT-4o的准确率仅为52\%,表明未来还有重大改进空间,有助于推动医疗AI的发展。
Aug, 2024
本研究解决了医疗视觉问答(Med-VQA)中模型视觉理解能力不足的问题,提出了定向视觉提示的新方法,以提升多模态大型语言模型(MLLMs)在区域性问题上的表现。研究发现,结合孤立区域与上下文区域的定制视觉提示能够显著增强模型的视觉理解能力,展示了该方法在多个数据集上的有效性。
Aug, 2024
本研究针对当前医疗领域大规模视觉语言模型(LVLMs)评估基准的不足,开发了GMAI-MMBench,一个结构清晰、具有多感知粒度的全面医疗人工智能评估框架。研究发现,即使是先进的GPT-4o,其准确性仅为52%,强调了提升医疗AI应用的必要性,推动了未来LVLMs的研究方向。
Aug, 2024
本研究针对现有医学领域的多模态评估基准存在的不足,提出了GMAI-MMBench,一种涵盖广泛数据结构和多感知粒度的综合基准。研究表明,当前最先进的视觉语言模型在医学应用的准确率上仍有显著提升空间,这为未来的医学人工智能发展指明了方向。
Aug, 2024