Jan, 2024

GPT-4 视觉在医学中的专家级准确性背后的隐藏缺陷

TL;DR通过对 Generative Pre-trained Transformer 4 with Vision (GPT-4V) 在图像理解、医学知识回忆和多模态推理等方面综合分析,本研究发现 GPT-4V 在多项选择准确性方面超过人类医生(88.0% vs. 77.0%,p=0.034),且在诊断错误的情况下准确率超过 80%。然而,我们还发现,GPT-4V 在作出正确选择的情况下,其解释经常存在缺陷(27.3%),尤其在图像理解方面(21.6%)。尽管 GPT-4V 在多项选择问题上准确率较高,但我们的发现强调了在将这类模型整合到临床工作流程之前进一步深入评估其解释的必要性。