通过在线文本数据利用大型语言模型预测心理健康

Jul, 2023

通过在线文本数据利用大型语言模型预测心理健康

Leveraging Large Language Models for Mental Health Prediction via Online Text Data

Xuhai Xu, Bingshen Yao, Yuanzhe Dong, Hong Yu, James Hendler...

TL;DR我们在这项工作中，首次对多种大语言模型（LLMs）进行了全面评估，包括 Alpaca、Alpaca-LoRA 和 GPT-3.5，针对在线文本数据中的各种心理健康预测任务。我们进行了广泛的实验，涵盖了零样本提示、少样本提示和指令微调。研究结果表明，对于心理健康任务，LLMs 在零样本和少样本提示设计上具有有限但有希望的性能。更重要的是，我们的实验表明，指令微调可以显著提升 LLMs 在所有任务上的表现。我们最佳微调模型 Mental-Alpaca 在平衡精度上比 GPT-3.5（规模大 25 倍）高出 16.7％，并与最先进的任务特定模型相媲美。我们总结了一系列行动指南，供未来的研究人员、工程师和实践者参考，介绍如何赋予 LLMs 更好的心理健康领域知识，并成为心理健康预测任务的专家。

Abstract

The recent technology boost of large language models (LLMs) has empowered a variety of applications. However, there is very little research on understanding and improving LLMs' capability for the mental health do

large language models mental health evaluation mental health prediction instruction finetuning

发现论文，激发创造

MentalLLaMA: 基于大型语言模型的社交媒体可解释性心理健康分析

开发了第一个用于社交媒体上的可解释性心理健康分析的开源语言模型系列 MentalLLaMA，并通过 IMHI 数据集在正确性和解释质量方面接近最先进的判别方法。

Sep, 2023

利用大型语言模型揭示和缓解心理健康分析中的偏见

大型语言模型的进展展示了在各个应用领域的强大能力，包括心理健康分析。然而，现有的研究着重于预测性能，对公平性这一关键问题的探讨不足，给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集，使用十种不同的提示方法，系统地评估了七个社会因素的偏见。结果表明，GPT-4 在性能和公平性方面实现了最佳的平衡，尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外，我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见，凸显了在该领域进行公平分析的巨大潜力。

Jun, 2024

Health-LLM：通过可穿戴传感器数据进行健康预测的大型语言模型

该研究探讨了大规模语言模型在多模态健康预测中的应用，通过上下文信息和生理数据进行综合评估，并展示了 fine-tuned 模型在健康预测任务中的表现和对上下文增强策略的有效性。

Jan, 2024

大型语言模型与专家相当：识别青少年在线论坛中的心理健康因素

儿童和青少年的心理健康在过去几年中不断恶化。大型语言模型（LLMs）的出现为监测和干预的成本和时间效率提供了很大希望。我们创建了一个 Reddit 帖子的新数据集，经过专家精神科医生的标注，用于以下类别：创伤，不稳定性，病情，症状，自杀倾向和治疗，并将专家标签与两个表现最佳的 LLMs（GPT3.5 和 GPT4）的注释进行比较。我们发现 GPT4 与人际标注者一致性的表现相当，并且合成数据的性能要高得多，但我们发现模型有时仍会在否定和事实性问题上犯错误，合成数据的更高性能是由于真实数据的复杂性而不是固有优势。

Apr, 2024

通过大型语言模型理解心理健康的评估

评估大型语言模型在理解人类心理健康状况表达方面的潜力，结果显示，基于 Transformer 的模型（如 BERT 和 XLNet）在 DAIC-WOZ 数据集上表现优于大型语言模型。

Jan, 2024

应用于临床和生物医学任务的指导微调大型语言模型的零样本和少样本研究

评估四个最先进的面向指令的大型语言模型（ChatGPT、Flan-T5 UL2、Tk-Instruct 和 Alpaca）在 13 项真实世界的临床和生物医学自然语言处理（NLP）任务，如命名实体识别（NER）、问答（QA）、关系抽取（RE）等方面的表现。总体结果表明，评估的语言模型在大多数任务的零样本和少样本场景中已经接近最先进模型的性能，尤其在 QA 任务中表现出色，即使它们之前从未见过这些任务的示例。然而，我们观察到分类和 RE 任务的性能低于专门训练用于医学领域的模型（如 PubMedBERT）所能达到的水平。最后，我们注意到没有一个语言模型在所有研究任务中都胜过其他模型，某些模型在特定任务中更适合。

Jul, 2023

大型语言模型用于心理健康研究的系统综述

总结和概括了大型语言模型（LLMs）在心理健康领域的应用，包括早期筛查、数字干预和其他临床应用领域的强项、限制、挑战和机遇，并指出了 LLMs 在心理健康问题检测和个性化医疗方面的有效性，同时也提出了关于文本一致性、幻觉内容和缺乏伦理框架的风险以及 LLMs 作为创新临床工具的进一步研究和发展的必要性，强调 LLMs 应该是专业心理健康服务的补充而非替代。

Feb, 2024

评估大型语言模型用于公共卫生分类和提取任务

基于对 LLMs 在公共卫生任务中的自动评估，将六个外部注释数据集与七个新的内部注释数据集相结合，评估 LLMs 在处理与健康负担、流行病学危险因素和公共卫生干预相关的文本中的性能，发现 Llama-3-70B-Instruct 是性能最好的模型，在 15 个任务中取得最佳结果。这些初步结果表明，LLMs 可能成为公共卫生专家从各种免费文本来源中提取信息，并支持公共卫生监测、研究和干预的有用工具。

May, 2024

使用公共社交媒体数据评估大型语言模型在健康相关文本分类任务中的性能

我们评估了多种模型，包括传统机器学习模型、预训练语言模型和大型语言模型，比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明，使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果，并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。

Mar, 2024

利用大型语言模型的共情回应生成能力支持在线心理健康咨询

本研究通过比较五款大型语言模型（LLMs）生成的相应和传统对话系统及人工生成的相应，发现 LLMs 在大多数情景中表现出更高的同理心，从而探索并验证 LLMs 在模拟心理咨询对话中生成同理心回应的能力。

Oct, 2023