May, 2024

使用真实世界的医生与患者互动评估大型语言模型的共情能力

TL;DR大型语言模型(LLMs)在医疗领域的整合潜在地可以通过开发具有共情能力,面向患者的聊天机器人,显著增强患者护理和支持。本研究调查了一个有趣的问题:相较于通常由医生提供的,ChatGPT 能否提供更高程度的共情回应?为了回答这个问题,我们从梅奥诊所收集了病人信息和医生回复的去标识化数据集,并使用 ChatGPT 生成了备选回复。我们的分析包括了一种新的共情评级(EMRank)评估方法,评估回复的共情程度,该方法涵盖了自动化指标和人工评估。我们的研究结果表明,由 LLM 驱动的聊天机器人在传递共情沟通方面有超过人类医生的潜力,这为增强患者护理和减少专业倦怠提供了有前景的途径。本研究不仅强调了患者互动中共情的重要性,还提出了一套有效的自动共情评级指标,为 LLM 在医疗领域更广泛的应用铺平了道路。