生成式大型语言模型与同伴患者对解读普通患者的实验室检测结果的回答质量比较：评估研究

Jan, 2024

生成式大型语言模型与同伴患者对解读普通患者的实验室检测结果的回答质量比较：评估研究

Quality of Answers of Generative Large Language Models vs Peer Patients for Interpreting Lab Test Results for Lay Patients: Evaluation Study

PDF

Zhe He, Balu Bhasuran, Qiao Jin, Shubo Tian, Karim Hanna...

TL;DR利用大型语言模型 (LLMs) 为患者提供对实验室检测相关问题的相关、准确、有帮助和安全的回答的可行性进行评估，并通过采用增强方法来解决潜在问题。我们通过从 Yahoo! Answers 收集实验室测试问题和答案数据，并使用 LangChain 框架和 ChatGPT 网络门户为 53 个问题生成了来自 GPT-4、Meta LLaMA 2、MedAlpaca 和 ORCA_mini 四个 LLM 的回答。通过评估相似度和医学专家的人工评估，结果表明 GPT-4 的回答在相关性、准确性、有帮助性和安全性方面优于其他 LLMs 和人工回答，但偶尔也会出现对医学背景的缺乏解释、错误陈述和缺乏参考等问题。我们发现了提高 LLM 回答质量的多种方法。

Abstract

Lab results are often confusing and hard to understand. large language models (LLMs) such as ChatGPT have opened a promising avenue for patients to get their questions answered. We aim to assess the feasibility of using LLMs to generate relevant, accurate, helpful, and unharmful respon

发现论文，激发创造

ChatGPT 在 USMLE 上的表现：揭示大型语言模型为 AI 辅助医学教育的潜力

本研究评估了使用 ChatGPT 回答医学问题的可靠性，结果发现 ChatGPT 的答案更加上下文相关，代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具，但研究表明还有提高其准确性的空间。

Jun, 2023

评估 GPT-3.5 和 GPT-4 在支持医疗服务实际信息需求方面的作用

本文介绍了两个大型语言模型在医疗保健领域中的应用。在通过简单提示后，通过医师提交的问题来确定这两个模型是否可以以安全和一致的方式为信息需求服务。结果表明，虽然这两个模型能够提供安全和可信的响应，但往往不能满足给定问题的特定信息需求。

Apr, 2023

在眼科中对大型语言模型（LLM）人工智能聊天机器人进行微调并使用 GPT-4 进行 LLM 评估

通过与人类医学专家的对齐评估，评估 GPT-4 对由经过微调的 LLM 聊天机器人生成的与眼科相关的患者问题回答的准确性，结果显示 GPT-4 评估在临床一致性方面具有显著优势，有潜力简化 LLM 应用于医疗健康领域的临床评估，提供一种有效自动的评估方式来协助未来 LLM 应用的验证。

Feb, 2024

评估 ChatGPT 家族模型在生物医学推理和分类中的表现

研究了大型语言模型在生物医学任务中的性能，并与更简单的模型进行了比较，特别地，探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略，而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。

Apr, 2023

药物 - GPT 和 ChatGPT LLMs 对医疗洞察的比较分析：在患者和医疗专业人员背景下评估准确性和相关性

本研究比较分析了三种生成式预训练转换模型（GPT）在问答环境中的应用：Drug-GPT 3、Drug-GPT 4 和 ChatGPT，并且将其应用于医疗保健领域。研究的目标是确定哪个模型在回答关于特应性皮炎（AD）患者经历和与糖尿病相关的医疗专业人员（HCP）讨论的问题时能提供最准确和相关的信息。结果表明，虽然这三种模型都能生成相关和准确的回答，但 Drug-GPT 3 和 Drug-GPT 4 这两种模型通过病患和医疗专业人员社交媒体和留言板帖子的筛选数据提供了更有针对性和深入的见解。ChatGPT 这种更通用的模型生成了更宽泛和一般性的回答，对于希望获得对主题的整体理解的读者来说可能是有价值的，但可能缺乏 Drug-GPT 模型生成答案中的深度和个人见解。这项比较分析强调了在评估医疗保健应用中生成信息的有用性时考虑语言模型的观点、知识深度和时效性的重要性。

Jul, 2023

利用大型语言模型（如 ChatGPT 或 GPT-4）作为临床助手的潜力和风险

在使用真实的大型电子病历数据库进行两项分析后，发现 ChatGPT 和 GPT-4 可以通过思路链和几次提示，准确地完成疾病分类任务，并为卫生保健工作者提供诊断辅助，但是这些模型目前存在错误陈述、忽视重要医学发现、推荐不必要的调查和过度治疗等问题，并伴随有隐私问题，因此仍不适用于现实世界的临床使用。不过，与传统机器学习工作流程的配置相比，这些模型所需的数据和时间较少，突出了它们在卫生保健应用中的可扩展性潜力。

Jul, 2023

多项选择题与大型语言模型：以虚构医疗数据为例的案例研究

利用模拟医学考题的方法评估大型语言模型在医学领域的表现，发现传统的多项选择题评估方法可能无法准确测量其临床知识和推理能力，而更强调其模式识别技能。这项研究强调了需要更强劲的评估方法，以更好地评估大型语言模型在医学背景下的真实能力。

Jun, 2024

比较 GPT-4 与 Chat-GPT 在心理健康护理中的功效：对大型语言模型进行盲评估以支持心理辅导

该研究比较了两个大型语言模型 GPT-4 和 Chat-GPT 在回应 18 个心理提示方面的表现，以评估它们在心理健康护理环境中的潜在适用性。结果显示 GPT-4 在生成临床相关和富有同理心的回应方面更有效，提供更好的支持和指导。这项研究为大型语言模型在心理健康护理领域的适用性提供了贡献，强调了在该领域持续研究和开发的重要性。需要进一步研究了解造成两个模型性能差异的具体因素，并探索其在不同人群和心理健康状况中的普适性。

May, 2024

GPT-4 在医疗挑战问题上的能力

通过对 USMLE 和 MultiMedQA 基准数据集的全面评估，我们发现不需要专门的提示造型来激发 GPT-4，它的表现超过了 USMLE 的合格分数约 20 分，并表现优于早期的通用模型（GPT-3.5）以及专门针对医学知识进行细化调整的模型（Med-PaLM，Flan-PaLM540B 的提示调整版本）。

Mar, 2023

ChatGPT 与 LLaMA：在 Stack Overflow 讨论中的影响力、可靠性和挑战

自 2022 年 11 月发布以来，ChatGPT 在 Stack Overflow 这一开发者查询编程和软件开发问题的主要平台上引起了轩然大波。通过展示出对技术问题能够产生即刻、类似人类回复的能力，ChatGPT 在开发者社区中引发了关于在生成式人工智能时代的人驱动平台演变角色的讨论。在 ChatGPT 发布两个月后，Meta 推出了自己的大规模语言模型（LLM），名为 LLaMA，比赛正式开始。我们进行了一项实证研究，分析 Stack Overflow 上的问题，并使用这些 LLMs 来回答它们。通过这种方式，我们旨在（ii）衡量用户随时间的参与度演变；（ii）量化 LLMs 回答的可靠性及其在长期内取代 Stack Overflow 的潜力；（iii）识别和理解 LLMs 出错的原因；以及（iv）将 LLMs 进行比较。我们的实证结果是明确的：ChatGPT 和 LLaMA 挑战了人类专业知识，但在某些领域并未超越它，在用户发帖活动方面也观察到了显著的下降。此外，我们还讨论了我们的发现对于新 LLMs 的使用和开发的影响。

Feb, 2024