MultiMedEval：用于评估医学视觉 - 语言模型的基准和工具包

Feb, 2024

MultiMedEval：用于评估医学视觉 - 语言模型的基准和工具包

MultiMedEval: A Benchmark and a Toolkit for Evaluating Medical Vision-Language Models

Corentin Royer, Bjoern Menze, Anjany Sekuboyina

TL;DRMultiMedEval 是一个开源工具包，旨在公平且可重复评估大型医疗视觉语言模型（VLM），通过 23 个数据集、11 个医学领域的 6 个多模态任务来综合评估模型的性能，并通过广泛采纳的任务和性能指标确保模型的整体泛化能力，在 github 上提供了一个简单的界面和设置过程，可以仅仅通过几行代码来评估任何 VLM，旨在简化 VLM 评估的复杂流程，推动未来模型的公平和统一基准测试。

Abstract

We introduce multimedeval, an open-source toolkit for fair and reproducible evaluation of large, →

multimedeval medical vision-language models evaluation open-source toolkit benchmarking

发现论文，激发创造

MedEval：多层次、多任务、多领域的医学文本模型评估基准

为了促进医疗语言模型的发展，本文介绍了一个多层次、多任务和多领域的医疗基准数据集 MedEval，包含来自多个医疗系统的数据，跨越了 8 种检查模式的 35 个人体区域。我们对 10 个通用和领域特定的语言模型进行了系统评估，并发现语言模型在不同任务上的效果不同。同时，我们强调了对少样本使用大型语言模型进行指导调整的重要性。研究结果为医疗领域的语言模型基准测试提供了参考，并深入探讨了采用大型语言模型在医疗领域的优势和局限性，为其实际应用和未来发展提供了重要启示。

Oct, 2023

OmniMedVQA：医学 LVLM 的新大规模综合评估基准

我们介绍了 OmniMedVQA，一个来自 75 个不同医疗数据集的医疗视觉问答基准，其中包括 12 个不同的模态和超过 20 个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难，甚至在医学专业化的模型中也表现出劣于通用领域模型的性能，这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。

Feb, 2024

MM-Vet：评估大型多模态集成模型的能力

我们提出了一个评估基准 MM-Vet，它检查了复杂的多模态任务上的大型多模态模型（LMMs）。我们根据洞察力设计了 MM-Vet，该洞察力表明解决复杂任务的有趣能力通常是通过一种通用模型能够整合不同的核心视觉语言（VL）能力实现的。

Aug, 2023

使用大型视觉语言模型检测和评估医学幻觉

为了检测和评估 LVLMs 的幻觉，我们引入了 Med-HallMark，这是第一个专门设计用于医学多模态领域中的幻觉检测和评估的基准。我们提出了 MediHall Score 评价指标，并介绍了 MediHallDetector，一个用于准确检测幻觉的新型医学 LVLM。通过实验评估，我们建立了使用我们的基准的热门 LVLMs 的基准值，结果表明 MediHall Score 相对于传统指标提供了对幻觉影响更丰富的理解，并展示了 MediHallDetector 的改进性能。我们希望这项工作能显著提高 LVLMs 在医学应用中的可靠性。

Jun, 2024

MultifacetEval: 探索 LLM 在掌握医学知识中的多方面评估

目前的大型语言模型在实际应用于医学领域中的任务时，存在显著的实际效果与报道性能之间的差距，这篇论文通过多方面的评估方法发现当前大型语言模型在医学知识的掌握方面缺乏深度、准确性和全面性，因此尚不适用于真实医学任务。

Jun, 2024

医疗报告生成和视觉问答的视觉语言模型综述

医学视觉语言模型结合了计算机视觉和自然语言处理，用于分析视觉和文本式医学数据。我们的论文回顾了最近在开发医学领域专用的视觉语言模型方面的进展，重点关注医学报告生成和视觉问答模型。我们提供了自然语言处理和计算机视觉的背景，解释了如何将两个领域的技术集成到视觉语言模型中，以实现对多模态数据的学习。我们讨论的关键领域包括医学视觉语言数据集的探索，最近有价值的医学视觉语言模型中所采用的体系结构和预训练策略的深入分析，以及评估指标在医学报告生成和视觉问答性能评估中的综合讨论。我们还强调了当前的挑战，并提出了未来的发展方向，包括增强临床有效性和解决患者隐私问题。总的来说，我们的综述总结了最近在开发视觉语言模型以利用多模态医学数据改进医疗应用方面的进展。

Mar, 2024

构建医学多语言语言模型的研究

我们旨在开发一个开源、多语言的医学语言模型，以使更广泛、语言多样的受众从不同地区受益。我们构建了一个新的多语言医学语料库 MMedC，其中包含约 255 亿个标记，涵盖 6 种主要语言，可用于现有通用语言模型的自回归训练。我们还提出了一个新的多语言医学多选题答题基准 MMedBench，带有理由支持的。我们在基准测试中评估了一些流行的开源大型语言模型（LLMs），以及那些在 MMedC 上进一步自回归训练的模型，结果我们的最终模型 MMedLM 2 只有 70 亿个参数，在 MMedBench 上表现出优异的性能，甚至与 GPT-4 不相上下。我们将公开提供这些资源，包括代码、模型权重和数据集。

Feb, 2024

MedBench：一个用于评估医学大型语言模型的大规模中文基准

为了解决医学大语言模型的评估工作耗时且需要大量人力的问题，我们引入了 MedBench，这是一个综合性的基准测试，包括来自医学各领域的 40,041 个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估，MedBench 建立了一个可靠的标准，揭示了医学大语言模型的能力和限制，以帮助医学研究社区。

Dec, 2023

利用视觉 - 语言预训练实现医学图像和文本的多模态理解与生成

本文提出了一种名为 MedViLL 的多模态自然语言处理模型，基于 BERT，使用一种新颖的多模态注意力掩码机制，通过在医学领域内的广泛一系列的多模态表现学习任务，包括影像报告分类、影像报告检索、影像问题回答和放射学报告生成，进行了统计和严格的评估，证明了 MedViLL 在各种基线上的优越性能表现，尤其是在三个影像报告数据集（MIMIC-CXR、Open-I 和 VQA-RAD）上的实现。

May, 2021

MMBench: 您的多模型是否是全能选手？

提出了一种新的多模式基准测试方法 MMBench，通过精心策划的数据集和结合 CircularEval 策略和 ChatGPT 的方法来对大视觉语言模型进行综合评估，旨在帮助研究社区更好地评估其模型以及鼓励未来的进步。

Jul, 2023