ChatGPT-3.5 和 GPT-4 在美国医疗执照考试中的表现 —— 带与不带干扰的比较

Sep, 2023

ChatGPT-3.5 和 GPT-4 在美国医疗执照考试中的表现 —— 带与不带干扰的比较

Performance of ChatGPT-3.5 and GPT-4 on the United States Medical Licensing Examination With and Without Distractions

Myriam Safrai, Amos Azaria

TL;DR研究试图调查医学数据与闲聊混合对 ChatGPT 提供的医疗建议准确性的影响，结果显示 ChatGPT-4 的准确性比 3.5 版本更高，并且似乎闲聊不会影响其提供医疗建议的能力，这对于理解利用 ChatGPT 和其他 LLM 进行医患互动的潜力和限制是重要的第一步。

Abstract

As large language models (LLMs) are predictive models building their response based on the words in the prompts, there is a risk that small talk and irrelevant information may alter the response and the suggestio

large language models medical data small talk accuracy physician-patient interactions

发现论文，激发创造

ChatGPT 在 USMLE 上的表现：揭示大型语言模型为 AI 辅助医学教育的潜力

本研究评估了使用 ChatGPT 回答医学问题的可靠性，结果发现 ChatGPT 的答案更加上下文相关，代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具，但研究表明还有提高其准确性的空间。

Jun, 2023

比较 GPT-4 与 Chat-GPT 在心理健康护理中的功效：对大型语言模型进行盲评估以支持心理辅导

该研究比较了两个大型语言模型 GPT-4 和 Chat-GPT 在回应 18 个心理提示方面的表现，以评估它们在心理健康护理环境中的潜在适用性。结果显示 GPT-4 在生成临床相关和富有同理心的回应方面更有效，提供更好的支持和指导。这项研究为大型语言模型在心理健康护理领域的适用性提供了贡献，强调了在该领域持续研究和开发的重要性。需要进一步研究了解造成两个模型性能差异的具体因素，并探索其在不同人群和心理健康状况中的普适性。

May, 2024

利用大型语言模型（如 ChatGPT 或 GPT-4）作为临床助手的潜力和风险

在使用真实的大型电子病历数据库进行两项分析后，发现 ChatGPT 和 GPT-4 可以通过思路链和几次提示，准确地完成疾病分类任务，并为卫生保健工作者提供诊断辅助，但是这些模型目前存在错误陈述、忽视重要医学发现、推荐不必要的调查和过度治疗等问题，并伴随有隐私问题，因此仍不适用于现实世界的临床使用。不过，与传统机器学习工作流程的配置相比，这些模型所需的数据和时间较少，突出了它们在卫生保健应用中的可扩展性潜力。

Jul, 2023

ChatGPT 能成为您的个人医疗助手吗？

该研究评估了在阿拉伯语中使用经过微调的 ChatGPT 模型作为个人医疗助手的潜力，并通过自动评估和人工评估证明它在医疗援助方面具有光明前景。

Dec, 2023

评估 ChatGPT 家族模型在生物医学推理和分类中的表现

研究了大型语言模型在生物医学任务中的性能，并与更简单的模型进行了比较，特别地，探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略，而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。

Apr, 2023

评估 GPT-3.5 和 GPT-4 在支持医疗服务实际信息需求方面的作用

本文介绍了两个大型语言模型在医疗保健领域中的应用。在通过简单提示后，通过医师提交的问题来确定这两个模型是否可以以安全和一致的方式为信息需求服务。结果表明，虽然这两个模型能够提供安全和可信的响应，但往往不能满足给定问题的特定信息需求。

Apr, 2023

生成式大型语言模型与同伴患者对解读普通患者的实验室检测结果的回答质量比较：评估研究

利用大型语言模型 (LLMs) 为患者提供对实验室检测相关问题的相关、准确、有帮助和安全的回答的可行性进行评估，并通过采用增强方法来解决潜在问题。我们通过从 Yahoo! Answers 收集实验室测试问题和答案数据，并使用 LangChain 框架和 ChatGPT 网络门户为 53 个问题生成了来自 GPT-4、Meta LLaMA 2、MedAlpaca 和 ORCA_mini 四个 LLM 的回答。通过评估相似度和医学专家的人工评估，结果表明 GPT-4 的回答在相关性、准确性、有帮助性和安全性方面优于其他 LLMs 和人工回答，但偶尔也会出现对医学背景的缺乏解释、错误陈述和缺乏参考等问题。我们发现了提高 LLM 回答质量的多种方法。

Jan, 2024

GPT-4 在医疗挑战问题上的能力

通过对 USMLE 和 MultiMedQA 基准数据集的全面评估，我们发现不需要专门的提示造型来激发 GPT-4，它的表现超过了 USMLE 的合格分数约 20 分，并表现优于早期的通用模型（GPT-3.5）以及专门针对医学知识进行细化调整的模型（Med-PaLM，Flan-PaLM540B 的提示调整版本）。

Mar, 2023

大型语言模型在初级编程教育中的应用：ChatGPT 的性能和对评估的影响

该论文研究了大型语言模型（LLMs）ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现，并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务，使用完整任务描述作为 LLMs 的输入，通过 CodingBat 的单元测试评估生成的回复。此外，还分析了文本解释和程序代码的普遍可用性。结果显示得分高，正确响应率为 94.4％至 95.8％，同时文本解释和程序代码的可用性可靠，从而为将 LLMs 纳入编程教育和评估中打开了新的途径。

Aug, 2023

评估 GPT-4 和 ChatGPT 在日本医学执照考试中的表现

本文旨在评估 ChatGPT，GPT-3 和 GPT-4 在日本语言医学执照考试上的表现，并提出了当前 LLM API 的关键局限性，包括产生不合适的词语以及因脚本语言不同带来的高昂成本和较小的上下文空间。

Mar, 2023