利用 LLMs 进行心理健康咨询的自动评估

Feb, 2024

利用 LLMs 进行心理健康咨询的自动评估

Automatic Evaluation for Mental Health Counseling using LLMs

Anqi Li, Yu Lu, Nirui Song, Shuai Zhang, Lizhi Ma...

TL;DR提出使用大型语言模型进行心理咨询工作联结评估的创新高效自动方法，通过结合指南，该方法在与人工评估的高度一致性的基础上提供有价值的心理咨询脚本洞察，将大型语言模型整合到评估过程中，提供一种经济实惠可靠的评估咨询质量的手段，增强整体效果。

Abstract

High-quality psychological counseling is crucial for mental health worldwide, and timely evaluation is vital for ensuring its effectiveness. However, obtaining professional →

psychological counseling evaluation working alliance large language models counseling quality

发现论文，激发创造

基于 LLM 的互动语言治疗对高功能孤独症青少年心理咨询的疗效评估

这项研究主要探讨了大型语言模型（LLMs）在与高功能自闭症青少年进行互动语言治疗中的效果。通过评估 LLM 在治疗环境中参与共情、适应性和情境适当性交互的能力，研究结果表明 LLM 在支持性治疗工具方面具有巨大潜力，显示出在情感共鸣和对话适应性方面的优势，但也指出实现人类治疗师所具备个性化和情感理解深度的挑战，强调了应用人工智能于治疗环境中的伦理考虑的重要性。该研究为利用 LLM 进行自闭症青少年心理咨询提供了有价值的洞察力，并强调了在心理健康护理中探索人工智能作用的未来需要持续发展以增强这些模型在治疗环境中的能力的必要性。

Nov, 2023

利用指令调校的大型语言模型优化心理咨询

本文探讨了大型语言模型在心理咨询中的应用，通过专用提示信息来提高其在提供共情、相关和支持性回应方面的性能，研究结果表明我们的训练模型优于几个基线模型，凸显其作为可扩展且易于获取的心理健康支持工具的潜力。

Jun, 2024

大型语言模型多轮医疗咨询自动评估框架

该研究介绍了一种自动评估框架，评估了大型语言模型作为虚拟医生在多轮咨询中的实际能力，通过重构来自美国医疗执照考试的医学多项选择题，提出了一个基准测试集，并开发了综合评估指标。研究结果表明，使用培训集对大型语言模型进行微调，可以减轻幻觉并提高其在所提出基准上的性能。

Sep, 2023

Psy-LLM：利用基于 AI 的大型语言模型扩展全球心理健康心理服务

该研究提出了 Psy-LLM 框架，这是利用大型语言模型（LLMs）进行在线心理咨询问答的基于人工智能的系统，旨在提供心理健康支持，并通过评估证明了其在生成连贯和相关答案方面的有效性。

Jul, 2023

大型语言模型在心理健康咨询中的挑战

全球精神健康危机，人工智能和大型语言模型能够支持或提供心理咨询，但其应用也引发了准确性、有效性、可靠性的担忧。本文研究了大型语言模型在心理咨询中面临的主要挑战，包括模型错觉、可解释性、偏见、隐私和临床有效性，并探讨了解决这些挑战的潜在方案，以改进心理健康护理。

Nov, 2023

LLM-Mini-CEX: 大型语言模型的自动评估用于诊断对话

为了提高诊断效率，增强医疗诊断的技术潜力，我们建立了一种评估标准 (LLM-specific Mini-CEX)，通过自动对话评估与 ChatGPT 的交互并替代人工评估，可以有效评估医疗诊断对话和比较不同 LLMs 之间的质量。

Aug, 2023

面向基于文本的咨询的自动实时评估

利用在线咨询平台收集咨询师和客户的对话记录，运用机器学习方法进行自动评估，并通过粗细粒度的标签和预训练技术实现实用的准确性。

Mar, 2022

探索大型语言模型在总结心理咨询会话中的效果：一项基准研究

通过方面导向的总结来评估大型语言模型在心理健康咨询中的应用，研究发现任务特定的语言模型在心理咨询的各个方面表现出较好的综合性能。

Feb, 2024

AI 是否能相似地感知：测试大型语言模型对精神健康支持的响应

我们开发了一个评估框架，以确定大型语言模型在自动化心理健康治疗方面是否是可行和道德的前进路径，并通过人工评估和心理学研究的自动质量评估指标，比较了点对点响应者提供的回应与一种最先进的大型语言模型提供的回应。我们展示了像 GPT-4 这样的大型语言模型使用隐式和显式线索推断患者人口统计学特征，然后展示了患者子群之间存在统计上显著差异：对于黑人发帖的回应一直比其他人口统计群体的同一回应具有较低的同理心（比对照组低 2%-13%）。我们发现回应生成的方式显著影响回应的质量。最后，我们提出了大型语言模型在心理健康响应潜在部署中的安全指南。

May, 2024

大型语言模型在学生论文评价中的应用

本文通过三种场景下的评估：1）不提供指导，2）使用预先规定的评分标准，3）通过论文的两两对比，与实际学生论文一起使用大语言模型（LLM）进行评估，以降低教师的工作量。定量分析结果显示，使用预先规定的评分标准对 LLM 与教师评估之间存在强相关性，尽管存在有关评估质量和稳定性的担忧。因此，对 LLM 的评估意见进行了定性分析，结果表明：1）LLM 可以达到教师的评估能力，2）LLM 评估中的差异应解释为多样性而非混乱，3）人类和 LLM 的评估可以不同且相互补充。综上所述，本文建议将 LLM 视为教师评估委员会的合作伙伴，并为进一步研究提供了方向。

May, 2024