MentalLLaMA: 基于大型语言模型的社交媒体可解释性心理健康分析
我们在这项工作中,首次对多种大语言模型(LLMs)进行了全面评估,包括 Alpaca、Alpaca-LoRA 和 GPT-3.5,针对在线文本数据中的各种心理健康预测任务。我们进行了广泛的实验,涵盖了零样本提示、少样本提示和指令微调。研究结果表明,对于心理健康任务,LLMs 在零样本和少样本提示设计上具有有限但有希望的性能。更重要的是,我们的实验表明,指令微调可以显著提升 LLMs 在所有任务上的表现。我们最佳微调模型 Mental-Alpaca 在平衡精度上比 GPT-3.5(规模大 25 倍)高出 16.7%,并与最先进的任务特定模型相媲美。我们总结了一系列行动指南,供未来的研究人员、工程师和实践者参考,介绍如何赋予 LLMs 更好的心理健康领域知识,并成为心理健康预测任务的专家。
Jul, 2023
传统的心理健康分析方法在能力上较强,但缺乏解释性和大量的标注数据。相比之下,基于大型语言模型的生成方法具有消除繁重注释和提供解释的潜力。然而,它们的能力仍然不及判别方法,并且由于解释的生成是黑盒过程,可能不可靠。受到使用量表评估精神状态的心理评估实践的启发,我们的方法通过大型语言模型融入两个过程。首先,患者完成心理健康问卷,然后心理学家解释心理问卷中收集到的信息并作出知情决策。实验结果表明,我们的方法胜过其他零样本方法。我们的方法可以基于心理问卷的输出生成更严谨的解释。
Feb, 2024
本文提出了一种新颖的方法,将大型语言模型(LLM)与可解释的人工智能(XAI)和类似 ChatGPT 的对话代理相结合,以解决对社交媒体上表达的抑郁症状进行及时检测的挑战。通过将 BERT 的 Twitter 特定变体 BERTweet 集成到 BERT-XDD 模型中,实现了解释能力,并通过掩码注意力提供分类和解释。利用 ChatGPT 将技术解释转化为可读性强的评论,进一步提高了可解释性。我们的方法为可解释性抑郁症检测提供了一种有效且模块化的方法,有助于发展具有社会责任感的数字平台,在合格的保健专业人员指导下促进对心理健康挑战的早期干预和支持。
Jan, 2024
评估大型语言模型在理解人类心理健康状况表达方面的潜力,结果显示,基于 Transformer 的模型(如 BERT 和 XLNet)在 DAIC-WOZ 数据集上表现优于大型语言模型。
Jan, 2024
儿童和青少年的心理健康在过去几年中不断恶化。大型语言模型(LLMs)的出现为监测和干预的成本和时间效率提供了很大希望。我们创建了一个 Reddit 帖子的新数据集,经过专家精神科医生的标注,用于以下类别:创伤,不稳定性,病情,症状,自杀倾向和治疗,并将专家标签与两个表现最佳的 LLMs(GPT3.5 和 GPT4)的注释进行比较。我们发现 GPT4 与人际标注者一致性的表现相当,并且合成数据的性能要高得多,但我们发现模型有时仍会在否定和事实性问题上犯错误,合成数据的更高性能是由于真实数据的复杂性而不是固有优势。
Apr, 2024
大型语言模型在心理健康方面表现出很大的潜力,但使用它们时需要保持谨慎和考虑,把它们视为辅助人类专业技术而非替代品,因为它们可能产生幻觉般的输出,并且在心理健康咨询中,人类辅导员的情感理解、细致解读和背景意识仍然不可替代。
Nov, 2023
大型语言模型的进展展示了在各个应用领域的强大能力,包括心理健康分析。然而,现有的研究着重于预测性能,对公平性这一关键问题的探讨不足,给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集,使用十种不同的提示方法,系统地评估了七个社会因素的偏见。结果表明,GPT-4 在性能和公平性方面实现了最佳的平衡,尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外,我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见,凸显了在该领域进行公平分析的巨大潜力。
Jun, 2024
总结和概括了大型语言模型(LLMs)在心理健康领域的应用,包括早期筛查、数字干预和其他临床应用领域的强项、限制、挑战和机遇,并指出了 LLMs 在心理健康问题检测和个性化医疗方面的有效性,同时也提出了关于文本一致性、幻觉内容和缺乏伦理框架的风险以及 LLMs 作为创新临床工具的进一步研究和发展的必要性,强调 LLMs 应该是专业心理健康服务的补充而非替代。
Feb, 2024
提出了一种双提示方法,通过使用领域特定的信息和基于语言模型的一致性评估器,实现知识感知证据提取和证据总结,并综合实验证明了该方法的有效性和帮助临床医生评估心理状态进展的潜力。
Feb, 2024
我们评估了多种模型,包括传统机器学习模型、预训练语言模型和大型语言模型,比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明,使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果,并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。
Mar, 2024