MultiMedEval:用于评估医学视觉 - 语言模型的基准和工具包
为了促进医疗语言模型的发展,本文介绍了一个多层次、多任务和多领域的医疗基准数据集 MedEval,包含来自多个医疗系统的数据,跨越了 8 种检查模式的 35 个人体区域。我们对 10 个通用和领域特定的语言模型进行了系统评估,并发现语言模型在不同任务上的效果不同。同时,我们强调了对少样本使用大型语言模型进行指导调整的重要性。研究结果为医疗领域的语言模型基准测试提供了参考,并深入探讨了采用大型语言模型在医疗领域的优势和局限性,为其实际应用和未来发展提供了重要启示。
Oct, 2023
我们介绍了 OmniMedVQA,一个来自 75 个不同医疗数据集的医疗视觉问答基准,其中包括 12 个不同的模态和超过 20 个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难,甚至在医学专业化的模型中也表现出劣于通用领域模型的性能,这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。
Feb, 2024
我们提出了一个评估基准 MM-Vet,它检查了复杂的多模态任务上的大型多模态模型(LMMs)。我们根据洞察力设计了 MM-Vet,该洞察力表明解决复杂任务的有趣能力通常是通过一种通用模型能够整合不同的核心视觉语言(VL)能力实现的。
Aug, 2023
为了检测和评估 LVLMs 的幻觉,我们引入了 Med-HallMark,这是第一个专门设计用于医学多模态领域中的幻觉检测和评估的基准。我们提出了 MediHall Score 评价指标,并介绍了 MediHallDetector,一个用于准确检测幻觉的新型医学 LVLM。通过实验评估,我们建立了使用我们的基准的热门 LVLMs 的基准值,结果表明 MediHall Score 相对于传统指标提供了对幻觉影响更丰富的理解,并展示了 MediHallDetector 的改进性能。我们希望这项工作能显著提高 LVLMs 在医学应用中的可靠性。
Jun, 2024
目前的大型语言模型在实际应用于医学领域中的任务时,存在显著的实际效果与报道性能之间的差距,这篇论文通过多方面的评估方法发现当前大型语言模型在医学知识的掌握方面缺乏深度、准确性和全面性,因此尚不适用于真实医学任务。
Jun, 2024
医学视觉语言模型结合了计算机视觉和自然语言处理,用于分析视觉和文本式医学数据。我们的论文回顾了最近在开发医学领域专用的视觉语言模型方面的进展,重点关注医学报告生成和视觉问答模型。我们提供了自然语言处理和计算机视觉的背景,解释了如何将两个领域的技术集成到视觉语言模型中,以实现对多模态数据的学习。我们讨论的关键领域包括医学视觉语言数据集的探索,最近有价值的医学视觉语言模型中所采用的体系结构和预训练策略的深入分析,以及评估指标在医学报告生成和视觉问答性能评估中的综合讨论。我们还强调了当前的挑战,并提出了未来的发展方向,包括增强临床有效性和解决患者隐私问题。总的来说,我们的综述总结了最近在开发视觉语言模型以利用多模态医学数据改进医疗应用方面的进展。
Mar, 2024
我们旨在开发一个开源、多语言的医学语言模型,以使更广泛、语言多样的受众从不同地区受益。我们构建了一个新的多语言医学语料库 MMedC,其中包含约 255 亿个标记,涵盖 6 种主要语言,可用于现有通用语言模型的自回归训练。我们还提出了一个新的多语言医学多选题答题基准 MMedBench,带有理由支持的。我们在基准测试中评估了一些流行的开源大型语言模型(LLMs),以及那些在 MMedC 上进一步自回归训练的模型,结果我们的最终模型 MMedLM 2 只有 70 亿个参数,在 MMedBench 上表现出优异的性能,甚至与 GPT-4 不相上下。我们将公开提供这些资源,包括代码、模型权重和数据集。
Feb, 2024
为了解决医学大语言模型的评估工作耗时且需要大量人力的问题,我们引入了 MedBench,这是一个综合性的基准测试,包括来自医学各领域的 40,041 个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估,MedBench 建立了一个可靠的标准,揭示了医学大语言模型的能力和限制,以帮助医学研究社区。
Dec, 2023
本文提出了一种名为 MedViLL 的多模态自然语言处理模型,基于 BERT,使用一种新颖的多模态注意力掩码机制,通过在医学领域内的广泛一系列的多模态表现学习任务,包括影像报告分类、影像报告检索、影像问题回答和放射学报告生成,进行了统计和严格的评估,证明了 MedViLL 在各种基线上的优越性能表现,尤其是在三个影像报告数据集(MIMIC-CXR、Open-I 和 VQA-RAD)上的实现。
May, 2021
提出了一种新的多模式基准测试方法 MMBench,通过精心策划的数据集和结合 CircularEval 策略和 ChatGPT 的方法来对大视觉语言模型进行综合评估,旨在帮助研究社区更好地评估其模型以及鼓励未来的进步。
Jul, 2023