Jul, 2024

GPT-4V 仍无法生成放射学报告

TL;DR通过对 GPT-4V 在两个胸部 X 光报告数据集上生成报告的系统评估,我们发现它在词汇度量和临床有效性度量方面的表现均非常糟糕;我们将任务分解为两个步骤,即医学图像推理和(基于真实条件)生成报告,结果表明 GPT-4V 在图像推理方面的表现一直很差,而且即使在生成报告方面给予了真实条件,其生成的报告仍不如经过微调的 LLaMA-2 正确且自然。综上,我们对于在放射学工作流中使用 GPT-4V 的可行性提出了疑问。