Oct, 2023

GPT-4V 在医学影像中的多模态能力综合研究

TL;DR这篇论文全面评估了 GPT-4V 在不同的医学图像任务中的能力,包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估,发现了 GPT-4V 在为胸部 X 射线图像生成描述性报告方面的潜力,特别是在有良好结构提示的引导下。然而,我们的发现也揭示了 GPT-4V 在某些评估指标(如 CIDEr)上仍需改进,尤其是在 MIMIC-CXR 数据集基准上。在医学问答方面,虽然 GPT-4V 在区分问题类型方面表现出了熟练度,但在准确性方面还不及现有基准。此外,我们的分析发现了常规评估指标(如 BLEU 分数)的局限性,倡导发展更语义鲁棒的评估方法。在视觉基础领域,虽然 GPT-4V 在识别边界框方面显示了初步的潜力,但其精度不够,特别是在识别特定的医学器官和病症方面。我们的评估强调了 GPT-4V 在医学图像领域的重要潜力,同时也强调了需要针对性的改进来充分发挥其能力。