Feb, 2024

MultiMedEval:用于评估医学视觉 - 语言模型的基准和工具包

TL;DRMultiMedEval 是一个开源工具包,旨在公平且可重复评估大型医疗视觉语言模型(VLM),通过 23 个数据集、11 个医学领域的 6 个多模态任务来综合评估模型的性能,并通过广泛采纳的任务和性能指标确保模型的整体泛化能力,在 github 上提供了一个简单的界面和设置过程,可以仅仅通过几行代码来评估任何 VLM,旨在简化 VLM 评估的复杂流程,推动未来模型的公平和统一基准测试。