一个用于心理健康中大型语言模型的新颖细致对话评估框架
我们开发了一个评估框架,以确定大型语言模型在自动化心理健康治疗方面是否是可行和道德的前进路径,并通过人工评估和心理学研究的自动质量评估指标,比较了点对点响应者提供的回应与一种最先进的大型语言模型提供的回应。我们展示了像 GPT-4 这样的大型语言模型使用隐式和显式线索推断患者人口统计学特征,然后展示了患者子群之间存在统计上显著差异:对于黑人发帖的回应一直比其他人口统计群体的同一回应具有较低的同理心(比对照组低 2%-13%)。我们发现回应生成的方式显著影响回应的质量。最后,我们提出了大型语言模型在心理健康响应潜在部署中的安全指南。
May, 2024
我们提出了一种名为 BOLT 的新型计算框架,用于研究大型语言模型(LLMs)在担任治疗师角色时的对话行为。我们开发了一种上下文学习方法,定量测量 LLMs 的行为,基于包括反映、提问、解决方案、正常化和心理教育在内的 13 种不同的心理治疗技术。我们通过比较 LLM 治疗师与高、低质量人类治疗师的行为,并研究如何调整其行为以更好地体现高质量治疗中观察到的行为,发现 LLMs 的行为更接近低质量治疗,需要进一步研究来确保质量治疗。
Jan, 2024
本研究通过比较五款大型语言模型(LLMs)生成的相应和传统对话系统及人工生成的相应,发现 LLMs 在大多数情景中表现出更高的同理心,从而探索并验证 LLMs 在模拟心理咨询对话中生成同理心回应的能力。
Oct, 2023
评估大型语言模型在理解人类心理健康状况表达方面的潜力,结果显示,基于 Transformer 的模型(如 BERT 和 XLNet)在 DAIC-WOZ 数据集上表现优于大型语言模型。
Jan, 2024
我们在这项工作中,首次对多种大语言模型(LLMs)进行了全面评估,包括 Alpaca、Alpaca-LoRA 和 GPT-3.5,针对在线文本数据中的各种心理健康预测任务。我们进行了广泛的实验,涵盖了零样本提示、少样本提示和指令微调。研究结果表明,对于心理健康任务,LLMs 在零样本和少样本提示设计上具有有限但有希望的性能。更重要的是,我们的实验表明,指令微调可以显著提升 LLMs 在所有任务上的表现。我们最佳微调模型 Mental-Alpaca 在平衡精度上比 GPT-3.5(规模大 25 倍)高出 16.7%,并与最先进的任务特定模型相媲美。我们总结了一系列行动指南,供未来的研究人员、工程师和实践者参考,介绍如何赋予 LLMs 更好的心理健康领域知识,并成为心理健康预测任务的专家。
Jul, 2023
大型语言模型的进展展示了在各个应用领域的强大能力,包括心理健康分析。然而,现有的研究着重于预测性能,对公平性这一关键问题的探讨不足,给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集,使用十种不同的提示方法,系统地评估了七个社会因素的偏见。结果表明,GPT-4 在性能和公平性方面实现了最佳的平衡,尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外,我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见,凸显了在该领域进行公平分析的巨大潜力。
Jun, 2024
儿童和青少年的心理健康在过去几年中不断恶化。大型语言模型(LLMs)的出现为监测和干预的成本和时间效率提供了很大希望。我们创建了一个 Reddit 帖子的新数据集,经过专家精神科医生的标注,用于以下类别:创伤,不稳定性,病情,症状,自杀倾向和治疗,并将专家标签与两个表现最佳的 LLMs(GPT3.5 和 GPT4)的注释进行比较。我们发现 GPT4 与人际标注者一致性的表现相当,并且合成数据的性能要高得多,但我们发现模型有时仍会在否定和事实性问题上犯错误,合成数据的更高性能是由于真实数据的复杂性而不是固有优势。
Apr, 2024
总结和概括了大型语言模型(LLMs)在心理健康领域的应用,包括早期筛查、数字干预和其他临床应用领域的强项、限制、挑战和机遇,并指出了 LLMs 在心理健康问题检测和个性化医疗方面的有效性,同时也提出了关于文本一致性、幻觉内容和缺乏伦理框架的风险以及 LLMs 作为创新临床工具的进一步研究和发展的必要性,强调 LLMs 应该是专业心理健康服务的补充而非替代。
Feb, 2024
评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型(LLMs)的情感分析性能,发现 GPT-4 和 GPT-4-Turbo 在理解语言输入和处理上下文信息方面表现出色,与人的一致性高且决策过程透明,但在非英语环境中的文化细微差别方面存在不稳定性,结果强调了 LLMs 不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。
Jun, 2024
提出了一个系统的方法,用于检验领域知识和大型语言模型在代表危机辅导员与求助者之间的对话时的表现,结果表明领域知识和语言模型生成的特征能够更好地描述咨询对话。
Feb, 2024