应用和评估带有 LLM 能力的聊天机器人进行精神科医生和患者模拟

May, 2023

应用和评估带有 LLM 能力的聊天机器人进行精神科医生和患者模拟

LLM-empowered Chatbots for Psychiatrist and Patient Simulation: Application and Evaluation

Siyuan Chen, Mengyue Wu, Kenny Q. Zhu, Kunyao Lan, Zhiling Zhang...

TL;DR本论文旨在研究将 ChatGPT 用于精神科门诊情景下精神医生和患者模拟对话中的应用及评估行为和用户体验的可行性，并探讨提示设计对聊天机器人行为和用户体验的影响。

Abstract

Empowering chatbots in the field of mental health is receiving increasing amount of attention, while there still lacks exploration in developing and evaluating chatbots in psychiatric outpatient scenarios. In this work, we focus on exploring the potential of chatgpt in powering chatbot

chatgpt chatbot psychiatry evaluation simulation

发现论文，激发创造

使用真实世界的医生与患者互动评估大型语言模型的共情能力

大型语言模型（LLMs）在医疗领域的整合潜在地可以通过开发具有共情能力，面向患者的聊天机器人，显著增强患者护理和支持。本研究调查了一个有趣的问题：相较于通常由医生提供的，ChatGPT 能否提供更高程度的共情回应？为了回答这个问题，我们从梅奥诊所收集了病人信息和医生回复的去标识化数据集，并使用 ChatGPT 生成了备选回复。我们的分析包括了一种新的共情评级（EMRank）评估方法，评估回复的共情程度，该方法涵盖了自动化指标和人工评估。我们的研究结果表明，由 LLM 驱动的聊天机器人在传递共情沟通方面有超过人类医生的潜力，这为增强患者护理和减少专业倦怠提供了有前景的途径。本研究不仅强调了患者互动中共情的重要性，还提出了一套有效的自动共情评级指标，为 LLM 在医疗领域更广泛的应用铺平了道路。

May, 2024

使用 ChatGPT 作为治疗师助手：一项适用性研究

本研究提出使用 ChatGPT 作为心理治疗辅助技术，以搜集患者信息，充当患者在治疗期间的伙伴，整理患者信息以帮助治疗过程，探索了 5 个研究问题并发现精细调整助手的有用提示，ChatGPT 的使用可以促进积极对话，倾听，提供验证和潜在的应对策略，帮助治疗师从多个患者的对话中发现新的见解，但是这种应用也面临技术和以人为本的挑战。

Apr, 2023

AI 是否能相似地感知：测试大型语言模型对精神健康支持的响应

我们开发了一个评估框架，以确定大型语言模型在自动化心理健康治疗方面是否是可行和道德的前进路径，并通过人工评估和心理学研究的自动质量评估指标，比较了点对点响应者提供的回应与一种最先进的大型语言模型提供的回应。我们展示了像 GPT-4 这样的大型语言模型使用隐式和显式线索推断患者人口统计学特征，然后展示了患者子群之间存在统计上显著差异：对于黑人发帖的回应一直比其他人口统计群体的同一回应具有较低的同理心（比对照组低 2%-13%）。我们发现回应生成的方式显著影响回应的质量。最后，我们提出了大型语言模型在心理健康响应潜在部署中的安全指南。

May, 2024

聊天 GPT 与情感增强提示在心理健康分析中的评估

本文详细评估了 ChatGPT 在 11 个数据集上的心理健康分析和情感推理能力，分析了不同提示策略对其分析能力和可解释性的影响，并发现情感提示可以有效提高其性能，但需要正确的情感注入方式。

Apr, 2023

ChatEd: 高等教育中基于 ChatGPT 的增强学习体验的聊天机器人

结合 ChatGPT 和传统的基于信息检索的聊天机器人框架，提供优化的高等教育学生支持，以解决 LLMs 在教育背景下生成错误、偏见或无用答案的挑战。

Dec, 2023

打字疗法：大型语言模型聊天机器人在心理健康支持方面的经验

通过对来自不同国家背景的 21 位个体进行访谈，我们调查了使用 LLM 聊天机器人进行心理健康支持的人们的亲身经历，并对用户如何为他们的聊天机器人创造独特的支持角色、填补日常护理的空白以及在寻求聊天机器人支持时如何应对相关的文化限制进行了分析。我们将分析基于心理治疗文献中有效支持的概念，并介绍了治疗性对齐的概念，即将人工智能与心理健康背景下的治疗价值对齐。我们的研究为设计师如何以道德且有效的方式应对 LLM 聊天机器人和其他人工智能心理健康支持工具在心理健康护理中的使用提供了建议。

Jan, 2024

评估针对患者个性化电子病历问题的 AI 聊天机器人

本文探讨了使用人工智能聊天机器人，基于临床笔记回答特定患者问题的实用性，评估并比较了多种大型语言模型系统（ChatGPT（3.5 和 4 版本），Google Bard 和 Claude）所生成的答案的准确性和相关性。

Jun, 2023

评估 ChatGPT 在门诊分诊指导中的应用：一项比较研究

评估 ChatGPT 在门诊指导中提供的回复一致性，包括版本内回复分析和版本间比较，结果表明 ChatGPT-4.0 的内部回复一致性显著高于 ChatGPT-3.5，并且两者的最佳推荐都具有中等一致性。然而，版本间的一致性相对较低，指示两个版本之间几乎没有匹配的推荐。此外，只有 50％的最佳推荐在比较中完全匹配。ChatGPT-3.5 的回复更可能是完整的，相较于 ChatGPT-4.0，这表明两个版本之间存在信息处理和回复生成的可能差异。这些发现提供了关于 AI 辅助门诊运作的见解，同时也促进了对 LLM 在医疗利用中的潜力和限制的探索。未来的研究可能会根据人体工程学和人因原则，精确地根据有效门诊分诊的特定需求，谨慎优化 LLM 和 AI 在医疗系统中的整合。

Apr, 2024

ChatGPT 是谁？利用 PsychoBench 评估 LLM 的心理描绘

该研究提出了一个评估 LLMs 不同心理方面的框架 PsychoBench，其中包括了四个明确分类的部分：人格特征、人际关系、动机测试和情绪能力。研究使用了五个常用模型进行测试，并采用了越狱方法绕过安全对齐协议，测试了 LLMs 的内在特性。

Oct, 2023

产后情绪与焦虑障碍的三个聊天机器人的开发和评估

我们开发了三种聊天机器人，旨在为产后护理者提供特定情境下的共情支持，并通过基于规则和生成模型的指标对其性能进行评估。研究表明，基于规则的模型在共情度和与真实参考接近程度方面表现最佳，而人们更喜欢基于规则的聊天机器人，因为其具备特定情境下的人性回复。然而，我们的生成模型在训练数据集限制下，偶尔会产生混乱或荒谬的回复。最后，我们讨论了支持心理健康挑战个体的基于规则和生成模型的实际好处，并对大型语言模型在数字心理保健领域的可能性和风险进行了讨论。

Aug, 2023