医学应用的多模态 ChatGPT：GPT-4V 的实验研究

Oct, 2023

医学应用的多模态 ChatGPT：GPT-4V 的实验研究

Multimodal ChatGPT for Medical Applications: an Experimental Study of GPT-4V

Zhiling Yan, Kai Zhang, Rong Zhou, Lifang He, Xiang Li...

TL;DR我们对最先进的多模态大型语言模型 GPT-4V 在视觉问答任务中的能力进行了关键评估，实验充分评估了 GPT-4V 在使用包括 11 种模态（如显微镜、皮肤镜、X 射线、CT 等）和十五种感兴趣的对象（如脑、肝脏、肺等）的病理学和放射学数据集中回答带有图像的问题的能力。我们的数据集涵盖了广泛的医学问题和十六种不同的问题类型。通过准确度评分的实验结果表明，目前的 GPT-4V 版本在应对诊断性医学问题方面的准确性不可靠且次优。此外，我们详细描述了 GPT-4V 在医学视觉问答中的七个独特特征，突出了其在这个复杂领域中的局限性。我们评估案例的完整细节可在此 https URL 上找到。

Abstract

In this paper, we critically evaluate the capabilities of the state-of-the-art multimodal large language model, i.e., GPT-4 with Vision (gpt-4v), on →

gpt-4v visual question answering medical diagnostics multimodal large language model accuracy score

发现论文，激发创造

GPT-4V 在医学影像中的多模态能力综合研究

这篇论文全面评估了 GPT-4V 在不同的医学图像任务中的能力，包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估，发现了 GPT-4V 在为胸部 X 射线图像生成描述性报告方面的潜力，特别是在有良好结构提示的引导下。然而，我们的发现也揭示了 GPT-4V 在某些评估指标（如 CIDEr）上仍需改进，尤其是在 MIMIC-CXR 数据集基准上。在医学问答方面，虽然 GPT-4V 在区分问题类型方面表现出了熟练度，但在准确性方面还不及现有基准。此外，我们的分析发现了常规评估指标（如 BLEU 分数）的局限性，倡导发展更语义鲁棒的评估方法。在视觉基础领域，虽然 GPT-4V 在识别边界框方面显示了初步的潜力，但其精度不够，特别是在识别特定的医学器官和病症方面。我们的评估强调了 GPT-4V 在医学图像领域的重要潜力，同时也强调了需要针对性的改进来充分发挥其能力。

Oct, 2023

GPT-4V 能在医学应用中发挥作用吗？基于 GPT-4V 的多模态医学诊断案例研究

通过评估 OpenAI 最新模型 GPT-4V (ision) 在多模态医学诊断领域中的表现，我们发现尽管 GPT-4V 在区分医学图像模态和解剖学方面表现出色，但在疾病诊断和生成综合报告方面面临重大挑战，这表明尽管大型多模态模型在计算机视觉和自然语言处理方面取得了重大进展，但其在有效支持现实医疗应用和临床决策方面仍有很大差距。

Oct, 2023

GPT-4V 不适用于临床护理和教育：临床医生评估分析

通过评估医学认证的医生和高级实习生对 GPT-4V 在多种医学状况下使用 CT 扫描、MRI、心电图和临床照片等成像方式的熟练程度，发现尽管 GPT-4V 能够识别和解释医学图像，但其诊断准确性和临床决策能力较差，对患者安全构成风险，因此在临床决策时使用时需要适当谨慎。

Nov, 2023

挑战性医疗案例中的视觉与语言模型准确度

基于本研究的结果，利用大规模通用语言模型结合图像能够有效应对复杂医学病例，但图像的添加可能降低模型的准确性。

Nov, 2023

GPT-4V 在生物医学成像中的整体评价

本研究介绍了针对生物医学图像分析的 GPT-4V 的大规模评估，评估了 GPT-4V 在医学成像领域的表现和局限性，包括放射学、肿瘤学、眼科学、病理学等 16 个医学成像类别的任务，结果显示 GPT-4V 在成像模态和解剖定位方面表现出色，但在疾病诊断和定位方面存在一定困难，而且在生成诊断报告方面表现优异，需要进一步提升和验证才能在临床应用前达到可靠，该研究推动对多模态大语言模型的理解，并指导未来工作在医疗应用方面的发展。

Nov, 2023

实现教育的视觉问答：GPT-4V 作为一种多模态人工智能

这篇论文介绍了 Visual Question Answering（VQA）技术在教育研究中的应用，特别是 GPT-4V 在促进 VQA 技术的普及和提高教育研究方法方面的作用。

May, 2024

HuatuoGPT-Vision，面向大规模注入医学视觉知识的多模态语言模型

通过使用 PubMedVision 数据集，我们对医学图像和文本进行了精炼和重构，从而改善了当前 MLLM 的医学多模态能力，并在医学多模态场景中展现了卓越的性能。

Jun, 2024

对基于知识的视觉问答模型 GPT-4V 的全面评估

通过从三个角度对 GPT-4V 进行深入评估，即常识知识、细粒度世界知识和具有决策理由的综合知识，我们发现 GPT-4V 在这三项任务上均取得了最好的性能，并且在使用复合图像进行少样本学习时具有增强的推理和解释能力，但在处理世界知识时可能导致严重的错觉，未来仍需要在这个研究方向上进行改进。

Nov, 2023

GPT-4 视觉在医学中的专家级准确性背后的隐藏缺陷

通过对 Generative Pre-trained Transformer 4 with Vision (GPT-4V) 在图像理解、医学知识回忆和多模态推理等方面综合分析，本研究发现 GPT-4V 在多项选择准确性方面超过人类医生（88.0% vs. 77.0%，p=0.034），且在诊断错误的情况下准确率超过 80%。然而，我们还发现，GPT-4V 在作出正确选择的情况下，其解释经常存在缺陷（27.3%），尤其在图像理解方面（21.6%）。尽管 GPT-4V 在多项选择问题上准确率较高，但我们的发现强调了在将这类模型整合到临床工作流程之前进一步深入评估其解释的必要性。

Jan, 2024

SurgicalGPT: 外科视觉问答的端到端语言 - 视觉生成预训练模型

本文介绍了一种可伸缩的 Language-Vision GPT（LV-GPT）模型，它将 GPT2 模型扩展到包括视觉输入（图像），以改进机器人手术中的视觉问题回答（VQA）任务，该模型在内窥镜视觉挑战机器人场景分割 2018、CholecTriplet2021 和全面外科场景数据集等三个公开数据集上的表现优于其他现有的 VQA 模型。

Apr, 2023