GMAI-MMBench:面向通用医学人工智能的综合多模态评估基准
该研究提出了一种包括多步骤评估法的大型语言模型(LLM)评估范例,通过结构化的交互方式进行多模态LLM评估,并通过获取交互数据进行后续领域特定的分析,以提高其准确性和实用性。研究以GPT-4-Vision-Preview为LLM,使用多模态多项选择题评估其在病理学领域的医学诊断准确性,结果表明其约有84%的正确诊断,同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于GPT-4-Vision-Preview,还可应用于评估其他LLMs的准确性和实用性,以进一步优化其应用。
Jan, 2024
我们介绍了OmniMedVQA,一个来自75个不同医疗数据集的医疗视觉问答基准,其中包括12个不同的模态和超过20个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难,甚至在医学专业化的模型中也表现出劣于通用领域模型的性能,这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。
Feb, 2024
MultiMedEval是一个开源工具包,旨在公平且可重复评估大型医疗视觉语言模型(VLM),通过23个数据集、11个医学领域的6个多模态任务来综合评估模型的性能,并通过广泛采纳的任务和性能指标确保模型的整体泛化能力,在github上提供了一个简单的界面和设置过程,可以仅仅通过几行代码来评估任何VLM,旨在简化VLM评估的复杂流程,推动未来模型的公平和统一基准测试。
Feb, 2024
医学视觉语言模型结合了计算机视觉和自然语言处理,用于分析视觉和文本式医学数据。我们的论文回顾了最近在开发医学领域专用的视觉语言模型方面的进展,重点关注医学报告生成和视觉问答模型。我们提供了自然语言处理和计算机视觉的背景,解释了如何将两个领域的技术集成到视觉语言模型中,以实现对多模态数据的学习。我们讨论的关键领域包括医学视觉语言数据集的探索,最近有价值的医学视觉语言模型中所采用的体系结构和预训练策略的深入分析,以及评估指标在医学报告生成和视觉问答性能评估中的综合讨论。我们还强调了当前的挑战,并提出了未来的发展方向,包括增强临床有效性和解决患者隐私问题。总的来说,我们的综述总结了最近在开发视觉语言模型以利用多模态医学数据改进医疗应用方面的进展。
Mar, 2024
通过在医学领域中使用大型视觉和语言模型,在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后,提出了一种医学视觉语言模型。这个模型在SLAKE 1.0医学问答(MedVQA)数据集上实现了最新的性能,整体准确率为87.5%,并在另一个MedVQA数据集VQA-RAD上展现了强大的性能,整体准确率为73.2%。
Apr, 2024
利用Gemini和GPT-4V模型,本研究尝试基于两种模态医学图像数据进行分类、解释和分析,并发现Gemini在分类任务上略优于GPT-4V,而GPT-4V的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部X射线图像等医学图像分析专项任务中的分类和解释提供了潜力,并识别了早期调查研究中的关键限制。
Jun, 2024
通过使用 PubMedVision 数据集,我们对医学图像和文本进行了精炼和重构,从而改善了当前 MLLM 的医学多模态能力,并在医学多模态场景中展现了卓越的性能。
Jun, 2024
本研究针对现有医疗领域的多模态评估基准存在的局限,如有限的临床相关性和评估不完整性,提出了GMAI-MMBench。该基准基于多样化的医学数据,包括285个数据集和4种感知粒度,旨在全面评估大型视觉语言模型在医疗应用中的有效性。研究显示,当前先进模型如GPT-4o的准确率仅为52\%,表明未来还有重大改进空间,有助于推动医疗AI的发展。
Aug, 2024
本研究针对当前医疗领域大规模视觉语言模型(LVLMs)评估基准的不足,开发了GMAI-MMBench,一个结构清晰、具有多感知粒度的全面医疗人工智能评估框架。研究发现,即使是先进的GPT-4o,其准确性仅为52%,强调了提升医疗AI应用的必要性,推动了未来LVLMs的研究方向。
Aug, 2024
本研究针对大型视觉语言模型(LVLMs)在医疗领域的评估不足问题,提出了RadVUQA,一个新的放射学视觉理解与问答基准,以全面评估现有的LVLMs。研究发现,无论是通用LVLMs还是医疗特定的LVLMs,在多模态理解和定量推理上均存在显著缺陷,显示出与临床实际之间的巨大差距,强调了开发更强大智能LVLMs的迫切需求。
Aug, 2024