Jun, 2024

医学影像中多模态大型语言模型的实用性初探

TL;DR利用 Gemini 和 GPT-4V 模型,本研究尝试基于两种模态医学图像数据进行分类、解释和分析,并发现 Gemini 在分类任务上略优于 GPT-4V,而 GPT-4V 的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部 X 射线图像等医学图像分析专项任务中的分类和解释提供了潜力,并识别了早期调查研究中的关键限制。