大型语言模型能否用于心理咨询?使用角色扮演对话分析 GPT-4 生成的回应
我们开发了一个评估框架,以确定大型语言模型在自动化心理健康治疗方面是否是可行和道德的前进路径,并通过人工评估和心理学研究的自动质量评估指标,比较了点对点响应者提供的回应与一种最先进的大型语言模型提供的回应。我们展示了像 GPT-4 这样的大型语言模型使用隐式和显式线索推断患者人口统计学特征,然后展示了患者子群之间存在统计上显著差异:对于黑人发帖的回应一直比其他人口统计群体的同一回应具有较低的同理心(比对照组低 2%-13%)。我们发现回应生成的方式显著影响回应的质量。最后,我们提出了大型语言模型在心理健康响应潜在部署中的安全指南。
May, 2024
通过比较基于 LLMs 生成的回应与非基于 LLMs 生成的回应的系统,研究了生成回应对主观评价(如情绪变化、认知变化和对话质量)的影响。结果表明,使用 GPT-4 时,情绪变化、共情和其他对话品质显著改善,说明 GPT-4 具有较高的心理咨询能力。然而,研究还指出,即使使用了人类心理咨询数据集训练的对话模型,与基于情景的对话相比,并不能产生更好的结果。在使用了规则、情景或示例回应的系统中,可以通过人工专业人士提前使用 LLMs 生成示例回应或回应模板的方式呈现基于 LLMs 生成的回应,并且直接与用户在现实的心理健康服务中进行交互,这可能引发一些伦理问题。
Jan, 2024
该研究比较了两个大型语言模型 GPT-4 和 Chat-GPT 在回应 18 个心理提示方面的表现,以评估它们在心理健康护理环境中的潜在适用性。结果显示 GPT-4 在生成临床相关和富有同理心的回应方面更有效,提供更好的支持和指导。这项研究为大型语言模型在心理健康护理领域的适用性提供了贡献,强调了在该领域持续研究和开发的重要性。需要进一步研究了解造成两个模型性能差异的具体因素,并探索其在不同人群和心理健康状况中的普适性。
May, 2024
本研究通过比较五款大型语言模型(LLMs)生成的相应和传统对话系统及人工生成的相应,发现 LLMs 在大多数情景中表现出更高的同理心,从而探索并验证 LLMs 在模拟心理咨询对话中生成同理心回应的能力。
Oct, 2023
该研究探讨了大型语言模型(LLM),特别是 GPT-4,在课堂对话分析中的应用,这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点,调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析,包括数学和语文课堂的对话,该研究对人工编码的对话进行了评估,并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出,以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明,使用 GPT-4 能够显著节省时间,并且模型与人工编码者之间具有高度的一致性,尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。
Feb, 2024
ChatCounselor 是一种基于真实心理咨询对话构建的大型语言模型解决方案,它拥有专业心理学知识和咨询技巧,在咨询工作中具备专门化的能力;使用心理咨询评估的七个指标作为依据,通过 GPT-4 和精心设计的提示进行训练,ChatCounselor 在实际咨询问题上的表现超越了开源模型,接近于 ChatGPT,展示了通过高质量领域特定数据获得的模型能力的显著增强。
Sep, 2023
在使用真实的大型电子病历数据库进行两项分析后,发现 ChatGPT 和 GPT-4 可以通过思路链和几次提示,准确地完成疾病分类任务,并为卫生保健工作者提供诊断辅助,但是这些模型目前存在错误陈述、忽视重要医学发现、推荐不必要的调查和过度治疗等问题,并伴随有隐私问题,因此仍不适用于现实世界的临床使用。不过,与传统机器学习工作流程的配置相比,这些模型所需的数据和时间较少,突出了它们在卫生保健应用中的可扩展性潜力。
Jul, 2023
本文探讨了大型语言模型在心理咨询中的应用,通过专用提示信息来提高其在提供共情、相关和支持性回应方面的性能,研究结果表明我们的训练模型优于几个基线模型,凸显其作为可扩展且易于获取的心理健康支持工具的潜力。
Jun, 2024
当代社交媒体领域中,用户表达负面情绪的数量惊人,其中一部分表现为强烈的自杀意向。因此,需要训练有素的心理咨询师进行有效的心理干预。然而,这些专业人员的培养通常是一项重要但耗时的任务,因此,调动非专业人员或志愿者在这方面的能力成为一个紧迫的问题。这篇论文介绍了一种基于大型语言模型构建的新模型,完全协助非专业人员在在线用户对话中提供心理干预。该框架使得以有意义的方式利用非专业心理咨询师的能力成为可能。通过对十名专业心理咨询师的综合研究,评估了该系统在五个关键维度上的效果。研究结果证实我们的系统能够相对准确地分析患者的问题并提供专业水平的策略建议,从而增强非专业人员的支持。这项研究为大型语言模型在心理学领域的应用提供了有力的验证,并为基于社区的心理健康支持奠定了基础。
Aug, 2023
大型语言模型在培养有同理心的对话、构建和谐社会关系以及发展有帮助的人工智能方面具有至关重要的作用。本研究通过实证调查了大型语言模型在生成有同理心的回应方面的性能,并提出了三种改进方法:语义上下文学习、两阶段交互生成和与知识库的结合。广泛的实验证明,我们的方法能够显著改善大型语言模型的性能,在自动评估和人工评估方面达到最先进的水平。此外,我们还探索了 GPT-4 模型模拟人工评估者的可能性。
Oct, 2023