利用 LLMs 进行心理健康咨询的自动评估
这项研究主要探讨了大型语言模型(LLMs)在与高功能自闭症青少年进行互动语言治疗中的效果。通过评估 LLM 在治疗环境中参与共情、适应性和情境适当性交互的能力,研究结果表明 LLM 在支持性治疗工具方面具有巨大潜力,显示出在情感共鸣和对话适应性方面的优势,但也指出实现人类治疗师所具备个性化和情感理解深度的挑战,强调了应用人工智能于治疗环境中的伦理考虑的重要性。该研究为利用 LLM 进行自闭症青少年心理咨询提供了有价值的洞察力,并强调了在心理健康护理中探索人工智能作用的未来需要持续发展以增强这些模型在治疗环境中的能力的必要性。
Nov, 2023
本文探讨了大型语言模型在心理咨询中的应用,通过专用提示信息来提高其在提供共情、相关和支持性回应方面的性能,研究结果表明我们的训练模型优于几个基线模型,凸显其作为可扩展且易于获取的心理健康支持工具的潜力。
Jun, 2024
该研究介绍了一种自动评估框架,评估了大型语言模型作为虚拟医生在多轮咨询中的实际能力,通过重构来自美国医疗执照考试的医学多项选择题,提出了一个基准测试集,并开发了综合评估指标。研究结果表明,使用培训集对大型语言模型进行微调,可以减轻幻觉并提高其在所提出基准上的性能。
Sep, 2023
该研究提出了 Psy-LLM 框架,这是利用大型语言模型(LLMs)进行在线心理咨询问答的基于人工智能的系统,旨在提供心理健康支持,并通过评估证明了其在生成连贯和相关答案方面的有效性。
Jul, 2023
全球精神健康危机,人工智能和大型语言模型能够支持或提供心理咨询,但其应用也引发了准确性、有效性、可靠性的担忧。本文研究了大型语言模型在心理咨询中面临的主要挑战,包括模型错觉、可解释性、偏见、隐私和临床有效性,并探讨了解决这些挑战的潜在方案,以改进心理健康护理。
Nov, 2023
为了提高诊断效率,增强医疗诊断的技术潜力,我们建立了一种评估标准 (LLM-specific Mini-CEX),通过自动对话评估与 ChatGPT 的交互并替代人工评估,可以有效评估医疗诊断对话和比较不同 LLMs 之间的质量。
Aug, 2023
通过方面导向的总结来评估大型语言模型在心理健康咨询中的应用,研究发现任务特定的语言模型在心理咨询的各个方面表现出较好的综合性能。
Feb, 2024
我们开发了一个评估框架,以确定大型语言模型在自动化心理健康治疗方面是否是可行和道德的前进路径,并通过人工评估和心理学研究的自动质量评估指标,比较了点对点响应者提供的回应与一种最先进的大型语言模型提供的回应。我们展示了像 GPT-4 这样的大型语言模型使用隐式和显式线索推断患者人口统计学特征,然后展示了患者子群之间存在统计上显著差异:对于黑人发帖的回应一直比其他人口统计群体的同一回应具有较低的同理心(比对照组低 2%-13%)。我们发现回应生成的方式显著影响回应的质量。最后,我们提出了大型语言模型在心理健康响应潜在部署中的安全指南。
May, 2024
本文通过三种场景下的评估:1)不提供指导,2)使用预先规定的评分标准,3)通过论文的两两对比,与实际学生论文一起使用大语言模型(LLM)进行评估,以降低教师的工作量。定量分析结果显示,使用预先规定的评分标准对 LLM 与教师评估之间存在强相关性,尽管存在有关评估质量和稳定性的担忧。因此,对 LLM 的评估意见进行了定性分析,结果表明:1)LLM 可以达到教师的评估能力,2)LLM 评估中的差异应解释为多样性而非混乱,3)人类和 LLM 的评估可以不同且相互补充。综上所述,本文建议将 LLM 视为教师评估委员会的合作伙伴,并为进一步研究提供了方向。
May, 2024