GPT-4 到 GPT-3.5：' 把手术刀借我一用 '—— OpenAI GPT 在整形外科住院医师培训考试上的水平研究

Apr, 2023

GPT-4 到 GPT-3.5：' 把手术刀借我一用 '—— OpenAI GPT 在整形外科住院医师培训考试上的水平研究

GPT-4 to GPT-3.5: 'Hold My Scalpel' -- A Look at the Competency of OpenAI's GPT on the Plastic Surgery In-Service Training Exam

PDF

Jonathan D. Freedman, Ian A. Nappier

TL;DR本文研究通过多种选择题对 GPT-4 的能力进行评估，结果表明 GPT-4 在完成整形外科住院医师培训考试上，表现大幅提升，未来采用多模态输入，可以在以下考试中实现超人类表现。

Abstract

The plastic surgery in-service training exam (PSITE) is an important indicator of resident proficiency and serves as a useful benchmark for evaluating OpenAI's GPT. Unlike many of the simulated tests or practice

plastic surgery in-service training exam gpt-4 clinical vignettes multimodal input

发现论文，激发创造

GPT-4 在医疗挑战问题上的能力

通过对 USMLE 和 MultiMedQA 基准数据集的全面评估，我们发现不需要专门的提示造型来激发 GPT-4，它的表现超过了 USMLE 的合格分数约 20 分，并表现优于早期的通用模型（GPT-3.5）以及专门针对医学知识进行细化调整的模型（Med-PaLM，Flan-PaLM540B 的提示调整版本）。

Mar, 2023

GPT-4 视觉在医学中的专家级准确性背后的隐藏缺陷

通过对 Generative Pre-trained Transformer 4 with Vision (GPT-4V) 在图像理解、医学知识回忆和多模态推理等方面综合分析，本研究发现 GPT-4V 在多项选择准确性方面超过人类医生（88.0% vs. 77.0%，p=0.034），且在诊断错误的情况下准确率超过 80%。然而，我们还发现，GPT-4V 在作出正确选择的情况下，其解释经常存在缺陷（27.3%），尤其在图像理解方面（21.6%）。尽管 GPT-4V 在多项选择问题上准确率较高，但我们的发现强调了在将这类模型整合到临床工作流程之前进一步深入评估其解释的必要性。

Jan, 2024

GPT-4 技术报告

本文介绍了 GPT-4，一种大规模、多模态模型，可接受图像输入和文本输入，并产生文本输出。通过预先训练，优化方法和改进后的对齐过程，GPT-4 表现出人类水平的性能。

Mar, 2023

通过专业测试评估人工智能职业技能

通过一项新型的专业认证调查，本研究重点评估了两个引用率较高的 AI 模型 GPT-3 和 Turbo-GPT3.5 的职业技能。该研究强调实践准备的重要性，通过考察模型在由 1149 个专业认证组成的基准数据集上的表现，与人类测试成绩进行比较，从而提供了 AI 模型在专业认证方面与甚至超过人类表现的潜力的视角。GPT-3 甚至在没有任何微调或考试准备的情况下，在 39% 的专业认证中获得了及格分数（超过 70% 的正确率），并在云计算与虚拟化、业务分析、网络设置和修复以及数据分析等计算机相关领域展示了熟练程度。另一方面，Turbo-GPT3.5 在备受推崇的 Offensive Security Certified Professional (OSCP) 考试上获得了满分的 100%。该模型还展示了在护理、许可咨询、药剂和航空等多个专业领域的能力。Turbo-GPT3.5 在客户服务任务上表现出色，表明在增强呼叫中心的聊天机器人和日常咨询服务方面具有潜在应用场景。两个模型在机器传统角色之外的感官和基于经验的测试中也表现良好，包括品酒师、啤酒品尝、情商以及身体语言解读。研究发现，OpenAI 从 Babbage 到 Turbo 的模型改进使得评分标准的性能提升了 60%。这一进展表明，解决现有模型的局限性可能会产生能够通过最严格的专业认证的 AI。

Dec, 2023

GPT-4V 不适用于临床护理和教育：临床医生评估分析

通过评估医学认证的医生和高级实习生对 GPT-4V 在多种医学状况下使用 CT 扫描、MRI、心电图和临床照片等成像方式的熟练程度，发现尽管 GPT-4V 能够识别和解释医学图像，但其诊断准确性和临床决策能力较差，对患者安全构成风险，因此在临床决策时使用时需要适当谨慎。

Nov, 2023

GPT-4 通过 297 个波兰书面理事会认证考试

通过在 297 个考试中测试 Generative Pretrained Transformer（GPT）模型的性能，研究结果显示 GPT-3.5 没有通过任何考试，而最新的模型 gpt-4-0125 成功通过了 222 个考试（75%）。此研究对于波兰的大型语言模型在医学考试中的性能评估展示了巨大的进展，并展望了将 AI 应用于医疗领域的前景，例如开发基于 AI 的医疗助手来提高医疗服务的效率和准确性。

Apr, 2024

GPT-4V 在医学影像中的多模态能力综合研究

这篇论文全面评估了 GPT-4V 在不同的医学图像任务中的能力，包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估，发现了 GPT-4V 在为胸部 X 射线图像生成描述性报告方面的潜力，特别是在有良好结构提示的引导下。然而，我们的发现也揭示了 GPT-4V 在某些评估指标（如 CIDEr）上仍需改进，尤其是在 MIMIC-CXR 数据集基准上。在医学问答方面，虽然 GPT-4V 在区分问题类型方面表现出了熟练度，但在准确性方面还不及现有基准。此外，我们的分析发现了常规评估指标（如 BLEU 分数）的局限性，倡导发展更语义鲁棒的评估方法。在视觉基础领域，虽然 GPT-4V 在识别边界框方面显示了初步的潜力，但其精度不够，特别是在识别特定的医学器官和病症方面。我们的评估强调了 GPT-4V 在医学图像领域的重要潜力，同时也强调了需要针对性的改进来充分发挥其能力。

Oct, 2023

GPT-4V 在生物医学成像中的整体评价

本研究介绍了针对生物医学图像分析的 GPT-4V 的大规模评估，评估了 GPT-4V 在医学成像领域的表现和局限性，包括放射学、肿瘤学、眼科学、病理学等 16 个医学成像类别的任务，结果显示 GPT-4V 在成像模态和解剖定位方面表现出色，但在疾病诊断和定位方面存在一定困难，而且在生成诊断报告方面表现优异，需要进一步提升和验证才能在临床应用前达到可靠，该研究推动对多模态大语言模型的理解，并指导未来工作在医疗应用方面的发展。

Nov, 2023

GPT-4V 能在医学应用中发挥作用吗？基于 GPT-4V 的多模态医学诊断案例研究

通过评估 OpenAI 最新模型 GPT-4V (ision) 在多模态医学诊断领域中的表现，我们发现尽管 GPT-4V 在区分医学图像模态和解剖学方面表现出色，但在疾病诊断和生成综合报告方面面临重大挑战，这表明尽管大型多模态模型在计算机视觉和自然语言处理方面取得了重大进展，但其在有效支持现实医疗应用和临床决策方面仍有很大差距。

Oct, 2023

从文本到图像：探索 GPT-4Vision 在各个亚专业的先进放射学分析中的潜力

评估和比较 GPT-4 和 GPT-4Vision 在放射学任务中的作用，表明 GPT-4Vision 可以从图像中识别放射学特征，从而提高其在诊断潜力上，超过基于文本的描述。

Nov, 2023