评估针对患者个性化电子病历问题的 AI 聊天机器人
人工智能聊天机器人在预测疾病方面的可靠性进行了研究,结果表明虽然聊天机器人的准确性有所差异,但它们都无法足够可靠地进行重要的医疗决策,强调了对严格的验证和人类监督的必要性。
May, 2024
使用 GPT-3 模型进行医疗问题回答(MedQA)存在挑战和风险,分析表明 LLMs 对高风险的查询无法适当回应,生成错误的医疗信息、不安全的建议和可能被视为冒犯的内容。
Aug, 2023
大型语言模型(LLMs)在医疗领域的整合潜在地可以通过开发具有共情能力,面向患者的聊天机器人,显著增强患者护理和支持。本研究调查了一个有趣的问题:相较于通常由医生提供的,ChatGPT 能否提供更高程度的共情回应?为了回答这个问题,我们从梅奥诊所收集了病人信息和医生回复的去标识化数据集,并使用 ChatGPT 生成了备选回复。我们的分析包括了一种新的共情评级(EMRank)评估方法,评估回复的共情程度,该方法涵盖了自动化指标和人工评估。我们的研究结果表明,由 LLM 驱动的聊天机器人在传递共情沟通方面有超过人类医生的潜力,这为增强患者护理和减少专业倦怠提供了有前景的途径。本研究不仅强调了患者互动中共情的重要性,还提出了一套有效的自动共情评级指标,为 LLM 在医疗领域更广泛的应用铺平了道路。
May, 2024
本研究评估了使用 ChatGPT 回答医学问题的可靠性,结果发现 ChatGPT 的答案更加上下文相关,代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具,但研究表明还有提高其准确性的空间。
Jun, 2023
利用大型语言模型 (LLMs) 为患者提供对实验室检测相关问题的相关、准确、有帮助和安全的回答的可行性进行评估,并通过采用增强方法来解决潜在问题。我们通过从 Yahoo! Answers 收集实验室测试问题和答案数据,并使用 LangChain 框架和 ChatGPT 网络门户为 53 个问题生成了来自 GPT-4、Meta LLaMA 2、MedAlpaca 和 ORCA_mini 四个 LLM 的回答。通过评估相似度和医学专家的人工评估,结果表明 GPT-4 的回答在相关性、准确性、有帮助性和安全性方面优于其他 LLMs 和人工回答,但偶尔也会出现对医学背景的缺乏解释、错误陈述和缺乏参考等问题。我们发现了提高 LLM 回答质量的多种方法。
Jan, 2024
利用大型语言模型 (LLMs) 对临床记录进行动态问答的自然语言接口引入了一种新的方法。我们的聊天机器人通过 Langchain 和基于变压器的 LLMs 实现,允许用户用自然语言查询并从临床记录中获得相关答案。经过利用各种嵌入模型和先进的 LLMs 的实验表明,Wizard Vicuna 具有更高的准确性,尽管计算需求较高。模型优化,包括重量量化,使延迟时间提高了约 48 倍。有希望的结果表明,充分利用临床记录的价值和推进基于 AI 的临床决策的发展还面临一些挑战,如模型幻觉和有限的多样化医疗案例评估。解决这些差距对于释放临床记录的价值和推进基于 AI 的临床决策具有重要意义。
Jan, 2024
人工智能在支持医疗服务方面的重要性得到了全球大流行病的推动。我们回顾了过去 10 年(2013 年至 2023 年)提出的医疗领域 AI 聊天机器人的最新技术。我们的研究表明,虽然有少数商业聊天机器人用于患者支持,还有一些尚处于临床试验阶段的非商业聊天机器人,但人们对这种技术在患者安全和数据保护方面缺乏信任,医疗工作者和专业人士对其好处缺乏广泛认识。此外,与人类相比,患者对于聊天机器人的自然语言处理技术表达了不满。然而,为了部署和整合 AI 聊天机器人在公共卫生服务中,当前需求是:构建简单且安全易用的技术;通过专注的培训和发展来增强医疗界对该技术的信心;通过外联活动增加患者和更广泛社区对该技术的认知。
Aug, 2023
本文介绍了我们在 MEDIQA-Chat 2023 共享任务中对于从医生 - 患者对话自动生成临床笔记的提交。我们报道了两种方法的结果:第一种微调共享任务数据上的预训练语言模型(PLM),第二种使用大型语言模型(LLM)进行少量样本的上下文学习(ICL)。两种方法在自动指标(如 ROUGE,BERTScore)上均实现了高性能,并分别排名共享任务的二和一位。专业人士的审查表明,通过基于 ICL 的方法和 GPT-4 生成的笔记与人工书写的笔记一样受欢迎,这使其成为从医生 - 患者对话自动生成笔记的有前途的途径。
May, 2023
这项研究介绍了 EHRNoteQA,这是一个为评估临床环境中大型语言模型(LLMs)而定制的创新患者特定问题回答基准。它是首个采用多项选择问题回答格式的数据集,通过分析多个临床记录来回答单个问题,与其他格式相比,在自动评估中有效地评估 LLMs 的可靠性得分。在各种大型语言模型上进行的综合评估表明,它们在 EHRNoteQA 上的得分与通过临床医生评估的真实医学问题的表现更密切相关,凸显了 EHRNoteQA 在评估医学应用的 LLMs 中的重要性,以及它在促进 LLMs 融入医疗系统中的关键作用。该数据集将在 PhysioNet 凭据访问下向公众提供,促进这个重要领域的进一步研究。
Feb, 2024