大型语言模型测量精神功能的能力

Aug, 2023

大型语言模型测量精神功能的能力

The Capability of Large Language Models to Measure Psychiatric Functioning

Isaac R. Galatzer-Levy, Daniel McDuff, Vivek Natarajan, Alan Karthikesalingam, Matteo Malgaroli

TL;DR通过对大语料库（Med-PaLM 2）中明确训练的大型语言模型（LLMs）的能力进行研究，本文证明了这些模型能够在没有经过训练的情况下从病人采访和临床描述中预测精神功能。结果表明，Med-PaLM 2 能够评估多种精神疾病的精神功能，其中以基于标准评估的抑郁症评分的预测性能最强（准确率范围 = 0.80-0.84），与人类临床评定人员无显著差异（t (1,144)=1.20；p=0.23）。结果显示了通用的临床语言模型在根据患者和临床医生的自由描述预测精神风险方面的潜力。

Abstract

The current work investigates the capability of large language models (LLMs) that are explicitly trained on large corpuses of medical knowledge (Med-PaLM 2) to predict psychiatric functioning from →

large language models psychiatric functioning patient interviews clinical descriptions psychiatric risk

发现论文，激发创造

自动精神疾病评估中的 LLM 问卷填写

我们利用大型语言模型将非结构化的心理访谈转化为涵盖各种精神疾病和人格领域的结构化问卷，通过模拟被访者的方式让语言模型回答这些问卷。得到的答案被编码为特征，并使用随机森林回归器预测抑郁症（PHQ-8）和创伤后应激障碍（PCL-C）的标准化精神健康测量值，比多个基准模型表现出更高的诊断准确性。因此，我们的研究提出了一种新的框架来解释非结构化的心理访谈，缩小叙事驱动和数据驱动方法在心理健康评估中的差距。

Jun, 2024

利用大型语言模型进行创伤评估的临床访谈自动化 PTSD 诊断

通过将大规模语言模型（LLM）整合到工作流程中，我们旨在解决临床人力短缺在精神保健中所面临的挑战，从而为一般人群提供公平的精神保健。虽然 LLMs 在临床决策方面已经展示了其能力，但它们在创伤后应激障碍（PTSD）等严重疾病适应方面尚未得到充分探索。因此，我们收集了 411 个临床医师进行的诊断性访谈，并设计了一种获得高质量数据的新方法。此外，我们构建了一个综合框架，通过利用两个最先进的 LLMs（GPT-4 和 Llama-2）来自动完成基于访谈内容的 PTSD 诊断评估，这具有更广泛的临床诊断潜力。我们的结果在我们的数据集上展示了 LLMs 有望协助临床医生进行诊断验证的强大潜力。据我们所知，这是第一个完全基于临床医师访谈进行心理疾病评估自动化的人工智能系统。

May, 2024

大型语言模型用于心理健康研究的系统综述

总结和概括了大型语言模型（LLMs）在心理健康领域的应用，包括早期筛查、数字干预和其他临床应用领域的强项、限制、挑战和机遇，并指出了 LLMs 在心理健康问题检测和个性化医疗方面的有效性，同时也提出了关于文本一致性、幻觉内容和缺乏伦理框架的风险以及 LLMs 作为创新临床工具的进一步研究和发展的必要性，强调 LLMs 应该是专业心理健康服务的补充而非替代。

Feb, 2024

通过症状划定和总结，对大型语言模型进行定位以增强精神病学访谈

本研究探讨了利用大型语言模型 (Large Language Models, LLMs) 增强精神科访谈的应用，通过分析来自朝鲜叛逃者的咨询数据，研究其心理创伤和精神健康问题。研究结果显示，妥善引导的 LLMs 在症状划定和总结任务上取得了较高的性能，为将 LLMs 应用于精神科访谈领域的新兴研究做出了贡献，并展示了其对于协助心理健康专业人士的潜在有效性。

Mar, 2024

通过大型语言模型理解心理健康的评估

评估大型语言模型在理解人类心理健康状况表达方面的潜力，结果显示，基于 Transformer 的模型（如 BERT 和 XLNet）在 DAIC-WOZ 数据集上表现优于大型语言模型。

Jan, 2024

大型语言模型与专家相当：识别青少年在线论坛中的心理健康因素

儿童和青少年的心理健康在过去几年中不断恶化。大型语言模型（LLMs）的出现为监测和干预的成本和时间效率提供了很大希望。我们创建了一个 Reddit 帖子的新数据集，经过专家精神科医生的标注，用于以下类别：创伤，不稳定性，病情，症状，自杀倾向和治疗，并将专家标签与两个表现最佳的 LLMs（GPT3.5 和 GPT4）的注释进行比较。我们发现 GPT4 与人际标注者一致性的表现相当，并且合成数据的性能要高得多，但我们发现模型有时仍会在否定和事实性问题上犯错误，合成数据的更高性能是由于真实数据的复杂性而不是固有优势。

Apr, 2024

在心理健康护理中的大型语言模型：一项范围审查

大语言模型在精神卫生保健中展示了广泛的应用，涵盖诊断、患者支持等方面。然而，数据可用性、精确处理心理状态和有效评估方法等问题，导致了临床适用性和伦理考虑方面的差距存在，要推动精神卫生保健中大语言模型的进一步发展，需要依靠多学科协作、数据集开发、技术精进和伦理融合等方面的全面努力。

Jan, 2024

大型语言模型的心理评估：注重隐私且具有成本效益的方法

该研究探讨使用大型语言模型（LLMs）分析 Reddit 用户的文本评论，旨在实现两个主要目标：首先，找出支持预定义心理评估自杀风险的关键摘录；其次，总结材料以证实预先分配的自杀风险水平。该研究仅限于在本地运行的 “开源” LLMs 的使用，从而增强数据隐私。此外，该研究优先考虑计算要求低的模型，使其可供具有有限计算预算的个人和机构使用。该实施策略仅依靠精心设计的提示和语法来指导 LLM 的文本补全。尽管简单，评估指标显示出卓越结果，使其成为一种重要的关注隐私和成本效益的方法。这项工作是 2024 年计算语言学和临床心理学（CLPsych）共享任务的一部分。

Feb, 2024

PsyEval：一种用于精神健康领域的综合大型语言模型评估基准

目前缺乏对大型语言模型（LLMs）在心理健康领域能力评估的全面基准。因此，我们填补该空白，并引入了首个适用于心理健康领域特点的全面基准，包括六个子任务、三个维度，系统评估 LLMs 在心理健康领域的能力。我们为每个子任务设计了相应的简明提示，并全面评估了八个先进的 LLMs 使用我们的基准。实验结果不仅展示了当前 LLMs 在心理健康方面的改进空间，还揭示了未来模型优化的潜在方向。

Nov, 2023

关于在心理健康应用中重新思考大型语言模型

大型语言模型在心理健康方面表现出很大的潜力，但使用它们时需要保持谨慎和考虑，把它们视为辅助人类专业技术而非替代品，因为它们可能产生幻觉般的输出，并且在心理健康咨询中，人类辅导员的情感理解、细致解读和背景意识仍然不可替代。

Nov, 2023