GPT-4 在基于 USMLE 的病例研究中的评估

Feb, 2024

GPT-4 在基于 USMLE 的病例研究中的评估

GPT-4's assessment of its performance in a USMLE-based case study

Uttam Dhakal, Aniket Kumar Singh, Suman Devkota, Yogesh Sapkota, Bishal Lamichhane...

TL;DR本研究探讨了 GPT-4 在医疗应用中的性能评估，使用简单的提示技术从美国医学执照考试问卷中提取问题作为提示，任务是在提问前和提问后评估它的置信度得分。分为有反馈和无反馈两组问题进行分类，实验结果表明反馈会影响相对置信度但并不一致地增加或减少。这项研究对于 AI 可靠性的讨论具有重要意义，特别是在医疗领域中的 LLM 类模型（如 GPT-4），为优化反馈机制以提升 AI 辅助医学教育和决策支持提供了有价值的见解。

Abstract

This study investigates gpt-4's assessment of its performance in healthcare applications. A simple prompting technique was used to prompt the LLM with questions taken from the United States Medical Licensing Exam

gpt-4 performance assessment healthcare feedback mechanisms ai-assisted medical education

发现论文，激发创造

GPT-4 在医疗挑战问题上的能力

通过对 USMLE 和 MultiMedQA 基准数据集的全面评估，我们发现不需要专门的提示造型来激发 GPT-4，它的表现超过了 USMLE 的合格分数约 20 分，并表现优于早期的通用模型（GPT-3.5）以及专门针对医学知识进行细化调整的模型（Med-PaLM，Flan-PaLM540B 的提示调整版本）。

Mar, 2023

评估 GPT-3.5 和 GPT-4 在支持医疗服务实际信息需求方面的作用

本文介绍了两个大型语言模型在医疗保健领域中的应用。在通过简单提示后，通过医师提交的问题来确定这两个模型是否可以以安全和一致的方式为信息需求服务。结果表明，虽然这两个模型能够提供安全和可信的响应，但往往不能满足给定问题的特定信息需求。

Apr, 2023

估计大型语言模型置信度的方法

评估测量大型语言模型（LLMs）在复杂医学任务中提供诊断建议时的置信度的方法，结果发现 SC Agreement Frequency 是测量 GPT4 置信度最有用的方法。

Nov, 2023

在眼科中评估大型语言模型

本研究评估了三个不同的大型语言模型（GPT-3.5、GPT-4 和 PaLM2）在回答眼科专业问题方面的表现，并将其与三个不同的专业人员群体（医学本科生、医学硕士和主治医师）进行了比较。结果显示，GPT-4 代表的 LM 在眼科领域表现更好，未来在医学教育和临床决策方面将带来意想不到的好处。

Nov, 2023

ChatGPT-3.5 和 GPT-4 在美国医疗执照考试中的表现 —— 带与不带干扰的比较

研究试图调查医学数据与闲聊混合对 ChatGPT 提供的医疗建议准确性的影响，结果显示 ChatGPT-4 的准确性比 3.5 版本更高，并且似乎闲聊不会影响其提供医疗建议的能力，这对于理解利用 ChatGPT 和其他 LLM 进行医患互动的潜力和限制是重要的第一步。

Sep, 2023

开源大型语言模型 GPT-4 和 Claude 2 的比较研究：肾脏病学中的多项选择测试

该研究调查了大型语言模型（LLMs）在内科专科多项选择测试能力方面的医学知识能力，与 GPT-4 和 Claude 2 相比，当前广泛使用的开源 LLMs 在零 - shot 推理能力方面表现不佳。

Aug, 2023

多项选择题与大型语言模型：以虚构医疗数据为例的案例研究

利用模拟医学考题的方法评估大型语言模型在医学领域的表现，发现传统的多项选择题评估方法可能无法准确测量其临床知识和推理能力，而更强调其模式识别技能。这项研究强调了需要更强劲的评估方法，以更好地评估大型语言模型在医学背景下的真实能力。

Jun, 2024

医学术语分类中的大型语言模型及响应与推理的意外不一致

本研究评估了 GPT-3.5、GPT-4、Falcon 和 LLaMA 2 等最先进的大型语言模型在从出院摘要中识别患有轻度认知障碍（MCI）的患者的能力，并检查模型响应与其推理不一致的情况。研究结果强调了提示工程的重要性和对 GPT-4 中观察到的意外推理 - 响应不一致性进一步探索的需求，突显了将大型语言模型应用于医疗诊断的潜力，前提是在方法论上取得进步以确保人工智能生成的输出准确性和临床连贯性，从而提高大型语言模型在医疗决策中的可信度。

Dec, 2023

评估 GPT-3.5 和 GPT-4 模型在巴西大学入学考试中的表现

本研究通过分析 GPT-3.5 和 GPT-4 对 Exame Nacional do Ensino Médio 的表现以及不同提示策略的测试，旨在探讨语言模型在解决跨学科知识问题的高风险选择题方面的能力。 2022 年版的 GPT-4 with CoT 模型表现最佳，精度达到了 87％。

Mar, 2023

比较 GPT-4 与 Chat-GPT 在心理健康护理中的功效：对大型语言模型进行盲评估以支持心理辅导

该研究比较了两个大型语言模型 GPT-4 和 Chat-GPT 在回应 18 个心理提示方面的表现，以评估它们在心理健康护理环境中的潜在适用性。结果显示 GPT-4 在生成临床相关和富有同理心的回应方面更有效，提供更好的支持和指导。这项研究为大型语言模型在心理健康护理领域的适用性提供了贡献，强调了在该领域持续研究和开发的重要性。需要进一步研究了解造成两个模型性能差异的具体因素，并探索其在不同人群和心理健康状况中的普适性。

May, 2024