评估针对患者个性化电子病历问题的 AI 聊天机器人

Jun, 2023

评估针对患者个性化电子病历问题的 AI 聊天机器人

Evaluation of AI Chatbots for Patient-Specific EHR Questions

PDF

Alaleh Hamidi, Kirk Roberts

TL;DR本文探讨了使用人工智能聊天机器人，基于临床笔记回答特定患者问题的实用性，评估并比较了多种大型语言模型系统（ChatGPT（3.5 和 4 版本），Google Bard 和 Claude）所生成的答案的准确性和相关性。

Abstract

This paper investigates the use of artificial intelligence chatbots for patient-specific question answering (QA) from →

artificial intelligence chatbots question answering clinical notes language models

发现论文，激发创造

AI 聊天机器人从患者的病情投诉中进行疾病预测的可靠性

人工智能聊天机器人在预测疾病方面的可靠性进行了研究，结果表明虽然聊天机器人的准确性有所差异，但它们都无法足够可靠地进行重要的医疗决策，强调了对严格的验证和人类监督的必要性。

May, 2024

使用 AI 聊天机器人回复患者消息的影响

通过人工智能聊天机器人辅助文档整理，可以减轻医生的文档负担，提高工作效率并改善患者护理情况。

Oct, 2023

基于 GPT-3 的医疗会话代理的挑战

使用 GPT-3 模型进行医疗问题回答（MedQA）存在挑战和风险，分析表明 LLMs 对高风险的查询无法适当回应，生成错误的医疗信息、不安全的建议和可能被视为冒犯的内容。

Aug, 2023

使用真实世界的医生与患者互动评估大型语言模型的共情能力

大型语言模型（LLMs）在医疗领域的整合潜在地可以通过开发具有共情能力，面向患者的聊天机器人，显著增强患者护理和支持。本研究调查了一个有趣的问题：相较于通常由医生提供的，ChatGPT 能否提供更高程度的共情回应？为了回答这个问题，我们从梅奥诊所收集了病人信息和医生回复的去标识化数据集，并使用 ChatGPT 生成了备选回复。我们的分析包括了一种新的共情评级（EMRank）评估方法，评估回复的共情程度，该方法涵盖了自动化指标和人工评估。我们的研究结果表明，由 LLM 驱动的聊天机器人在传递共情沟通方面有超过人类医生的潜力，这为增强患者护理和减少专业倦怠提供了有前景的途径。本研究不仅强调了患者互动中共情的重要性，还提出了一套有效的自动共情评级指标，为 LLM 在医疗领域更广泛的应用铺平了道路。

May, 2024

ChatGPT 在 USMLE 上的表现：揭示大型语言模型为 AI 辅助医学教育的潜力

本研究评估了使用 ChatGPT 回答医学问题的可靠性，结果发现 ChatGPT 的答案更加上下文相关，代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具，但研究表明还有提高其准确性的空间。

Jun, 2023

生成式大型语言模型与同伴患者对解读普通患者的实验室检测结果的回答质量比较：评估研究

利用大型语言模型 (LLMs) 为患者提供对实验室检测相关问题的相关、准确、有帮助和安全的回答的可行性进行评估，并通过采用增强方法来解决潜在问题。我们通过从 Yahoo! Answers 收集实验室测试问题和答案数据，并使用 LangChain 框架和 ChatGPT 网络门户为 53 个问题生成了来自 GPT-4、Meta LLaMA 2、MedAlpaca 和 ORCA_mini 四个 LLM 的回答。通过评估相似度和医学专家的人工评估，结果表明 GPT-4 的回答在相关性、准确性、有帮助性和安全性方面优于其他 LLMs 和人工回答，但偶尔也会出现对医学背景的缺乏解释、错误陈述和缺乏参考等问题。我们发现了提高 LLM 回答质量的多种方法。

Jan, 2024

大型语言模型的临床文档动态问答

利用大型语言模型 (LLMs) 对临床记录进行动态问答的自然语言接口引入了一种新的方法。我们的聊天机器人通过 Langchain 和基于变压器的 LLMs 实现，允许用户用自然语言查询并从临床记录中获得相关答案。经过利用各种嵌入模型和先进的 LLMs 的实验表明，Wizard Vicuna 具有更高的准确性，尽管计算需求较高。模型优化，包括重量量化，使延迟时间提高了约 48 倍。有希望的结果表明，充分利用临床记录的价值和推进基于 AI 的临床决策的发展还面临一些挑战，如模型幻觉和有限的多样化医疗案例评估。解决这些差距对于释放临床记录的价值和推进基于 AI 的临床决策具有重要意义。

Jan, 2024

医疗辅助聊天机器人：简明综述

人工智能在支持医疗服务方面的重要性得到了全球大流行病的推动。我们回顾了过去 10 年（2013 年至 2023 年）提出的医疗领域 AI 聊天机器人的最新技术。我们的研究表明，虽然有少数商业聊天机器人用于患者支持，还有一些尚处于临床试验阶段的非商业聊天机器人，但人们对这种技术在患者安全和数据保护方面缺乏信任，医疗工作者和专业人士对其好处缺乏广泛认识。此外，与人类相比，患者对于聊天机器人的自然语言处理技术表达了不满。然而，为了部署和整合 AI 聊天机器人在公共卫生服务中，当前需求是：构建简单且安全易用的技术；通过专注的培训和发展来增强医疗界对该技术的信心；通过外联活动增加患者和更广泛社区对该技术的认知。

Aug, 2023

使用大型语言模型从医生 - 患者对话中生成临床笔记：来自 MEDIQA-Chat 的见解

本文介绍了我们在 MEDIQA-Chat 2023 共享任务中对于从医生 - 患者对话自动生成临床笔记的提交。我们报道了两种方法的结果：第一种微调共享任务数据上的预训练语言模型（PLM），第二种使用大型语言模型（LLM）进行少量样本的上下文学习（ICL）。两种方法在自动指标（如 ROUGE，BERTScore）上均实现了高性能，并分别排名共享任务的二和一位。专业人士的审查表明，通过基于 ICL 的方法和 GPT-4 生成的笔记与人工书写的笔记一样受欢迎，这使其成为从医生 - 患者对话自动生成笔记的有前途的途径。

May, 2023

EHRNoteQA：临床环境下评估大型语言模型的患者特定问题回答基准

这项研究介绍了 EHRNoteQA，这是一个为评估临床环境中大型语言模型（LLMs）而定制的创新患者特定问题回答基准。它是首个采用多项选择问题回答格式的数据集，通过分析多个临床记录来回答单个问题，与其他格式相比，在自动评估中有效地评估 LLMs 的可靠性得分。在各种大型语言模型上进行的综合评估表明，它们在 EHRNoteQA 上的得分与通过临床医生评估的真实医学问题的表现更密切相关，凸显了 EHRNoteQA 在评估医学应用的 LLMs 中的重要性，以及它在促进 LLMs 融入医疗系统中的关键作用。该数据集将在 PhysioNet 凭据访问下向公众提供，促进这个重要领域的进一步研究。

Feb, 2024