Jun, 2024
医学影像中多模态大型语言模型的实用性初探
An Early Investigation into the Utility of Multimodal Large Language Models in Medical Imaging
Sulaiman Khan, Md. Rafiul Biswas, Alina Murad, Hazrat Ali, Zubair Shah
TL;DR利用 Gemini 和 GPT-4V 模型,本研究尝试基于两种模态医学图像数据进行分类、解释和分析,并发现 Gemini 在分类任务上略优于 GPT-4V,而 GPT-4V 的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部 X 射线图像等医学图像分析专项任务中的分类和解释提供了潜力,并识别了早期调查研究中的关键限制。