从文本到图像:探索 GPT-4Vision 在各个亚专业的先进放射学分析中的潜力
GPT-4V 多模态大型语言模型在检测胸部 X 光片的放射学发现方面的应用研究表明,目前 GPT-4V 还不具备解读胸部 X 光片的实际诊断能力。
Mar, 2024
这篇论文全面评估了 GPT-4V 在不同的医学图像任务中的能力,包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估,发现了 GPT-4V 在为胸部 X 射线图像生成描述性报告方面的潜力,特别是在有良好结构提示的引导下。然而,我们的发现也揭示了 GPT-4V 在某些评估指标(如 CIDEr)上仍需改进,尤其是在 MIMIC-CXR 数据集基准上。在医学问答方面,虽然 GPT-4V 在区分问题类型方面表现出了熟练度,但在准确性方面还不及现有基准。此外,我们的分析发现了常规评估指标(如 BLEU 分数)的局限性,倡导发展更语义鲁棒的评估方法。在视觉基础领域,虽然 GPT-4V 在识别边界框方面显示了初步的潜力,但其精度不够,特别是在识别特定的医学器官和病症方面。我们的评估强调了 GPT-4V 在医学图像领域的重要潜力,同时也强调了需要针对性的改进来充分发挥其能力。
Oct, 2023
本研究介绍了针对生物医学图像分析的 GPT-4V 的大规模评估,评估了 GPT-4V 在医学成像领域的表现和局限性,包括放射学、肿瘤学、眼科学、病理学等 16 个医学成像类别的任务,结果显示 GPT-4V 在成像模态和解剖定位方面表现出色,但在疾病诊断和定位方面存在一定困难,而且在生成诊断报告方面表现优异,需要进一步提升和验证才能在临床应用前达到可靠,该研究推动对多模态大语言模型的理解,并指导未来工作在医疗应用方面的发展。
Nov, 2023
通过评估 OpenAI 最新模型 GPT-4V (ision) 在多模态医学诊断领域中的表现,我们发现尽管 GPT-4V 在区分医学图像模态和解剖学方面表现出色,但在疾病诊断和生成综合报告方面面临重大挑战,这表明尽管大型多模态模型在计算机视觉和自然语言处理方面取得了重大进展,但其在有效支持现实医疗应用和临床决策方面仍有很大差距。
Oct, 2023
通过评估医学认证的医生和高级实习生对 GPT-4V 在多种医学状况下使用 CT 扫描、MRI、心电图和临床照片等成像方式的熟练程度,发现尽管 GPT-4V 能够识别和解释医学图像,但其诊断准确性和临床决策能力较差,对患者安全构成风险,因此在临床决策时使用时需要适当谨慎。
Nov, 2023
通过对 Generative Pre-trained Transformer 4 with Vision (GPT-4V) 在图像理解、医学知识回忆和多模态推理等方面综合分析,本研究发现 GPT-4V 在多项选择准确性方面超过人类医生(88.0% vs. 77.0%,p=0.034),且在诊断错误的情况下准确率超过 80%。然而,我们还发现,GPT-4V 在作出正确选择的情况下,其解释经常存在缺陷(27.3%),尤其在图像理解方面(21.6%)。尽管 GPT-4V 在多项选择问题上准确率较高,但我们的发现强调了在将这类模型整合到临床工作流程之前进一步深入评估其解释的必要性。
Jan, 2024
通过提出一种新颖的评估框架,判断视觉语言模型在生成基于 CT 的异常的准确摘要方面的能力,从而为辅助放射科医师减轻负担,并指导未来该领域的发展。
Mar, 2024
本论文评估了目前最先进的大型语言模型 GPT-4 在放射学报告的文本应用中的表现,探索了各种提示策略,并发现 GPT-4 在常见放射学任务中表现要优于或与目前最先进的放射学模型相媲美。针对需要学习特定样式或架构的任务,GPT-4 通过基于示例的提示得到改进并与监督的最先进模型相匹配。通过与一名获得认证的放射科医生的广泛错误分析表明,GPT-4 在放射学知识方面具备足够水平,只偶尔在需要微妙领域知识的复杂上下文中出现错误。针对发现的总结,GPT-4 的输出整体上与现有的人工编写印象相当。
Oct, 2023
我们对最先进的多模态大型语言模型 GPT-4V 在视觉问答任务中的能力进行了关键评估,实验充分评估了 GPT-4V 在使用包括 11 种模态(如显微镜、皮肤镜、X 射线、CT 等)和十五种感兴趣的对象(如脑、肝脏、肺等)的病理学和放射学数据集中回答带有图像的问题的能力。我们的数据集涵盖了广泛的医学问题和十六种不同的问题类型。通过准确度评分的实验结果表明,目前的 GPT-4V 版本在应对诊断性医学问题方面的准确性不可靠且次优。此外,我们详细描述了 GPT-4V 在医学视觉问答中的七个独特特征,突出了其在这个复杂领域中的局限性。我们评估案例的完整细节可在此 https URL 上找到。
Oct, 2023