May, 2024

大型多模态模型在医学视觉问答中的令人尴尬的简单探测评估:比随机还差?

TL;DR通过探测性评估和程序诊断,严格评估了 LMM 在医学影像学中的性能,揭示了目前顶尖模型在医学诊断问题上的表现不如随机猜测,并强调了对 LMM 在医学诊断等关键领域的可靠性进行更为健壮的评估的紧迫需求。