大型语言模型与专家相当：识别青少年在线论坛中的心理健康因素

Apr, 2024

大型语言模型与专家相当：识别青少年在线论坛中的心理健康因素

Large Language Models Perform on Par with Experts Identifying Mental Health Factors in Adolescent Online Forums

Isablle Lorge, Dam W. Joyce, Andrey Kormilitzin

TL;DR儿童和青少年的心理健康在过去几年中不断恶化。大型语言模型（LLMs）的出现为监测和干预的成本和时间效率提供了很大希望。我们创建了一个 Reddit 帖子的新数据集，经过专家精神科医生的标注，用于以下类别：创伤，不稳定性，病情，症状，自杀倾向和治疗，并将专家标签与两个表现最佳的 LLMs（GPT3.5 和 GPT4）的注释进行比较。我们发现 GPT4 与人际标注者一致性的表现相当，并且合成数据的性能要高得多，但我们发现模型有时仍会在否定和事实性问题上犯错误，合成数据的更高性能是由于真实数据的复杂性而不是固有优势。

Abstract

mental health in children and adolescents has been steadily deteriorating over the past few years [ 1 ]. The recent advent of large language mode

mental health large language models adolescents annotations synthetic data

发现论文，激发创造

大型语言模型的心理评估：注重隐私且具有成本效益的方法

该研究探讨使用大型语言模型（LLMs）分析 Reddit 用户的文本评论，旨在实现两个主要目标：首先，找出支持预定义心理评估自杀风险的关键摘录；其次，总结材料以证实预先分配的自杀风险水平。该研究仅限于在本地运行的 “开源” LLMs 的使用，从而增强数据隐私。此外，该研究优先考虑计算要求低的模型，使其可供具有有限计算预算的个人和机构使用。该实施策略仅依靠精心设计的提示和语法来指导 LLM 的文本补全。尽管简单，评估指标显示出卓越结果，使其成为一种重要的关注隐私和成本效益的方法。这项工作是 2024 年计算语言学和临床心理学（CLPsych）共享任务的一部分。

Feb, 2024

利用大型语言模型揭示和缓解心理健康分析中的偏见

大型语言模型的进展展示了在各个应用领域的强大能力，包括心理健康分析。然而，现有的研究着重于预测性能，对公平性这一关键问题的探讨不足，给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集，使用十种不同的提示方法，系统地评估了七个社会因素的偏见。结果表明，GPT-4 在性能和公平性方面实现了最佳的平衡，尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外，我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见，凸显了在该领域进行公平分析的巨大潜力。

Jun, 2024

通过大型语言模型理解心理健康的评估

评估大型语言模型在理解人类心理健康状况表达方面的潜力，结果显示，基于 Transformer 的模型（如 BERT 和 XLNet）在 DAIC-WOZ 数据集上表现优于大型语言模型。

Jan, 2024

MentalLLaMA: 基于大型语言模型的社交媒体可解释性心理健康分析

开发了第一个用于社交媒体上的可解释性心理健康分析的开源语言模型系列 MentalLLaMA，并通过 IMHI 数据集在正确性和解释质量方面接近最先进的判别方法。

Sep, 2023

通过在线文本数据利用大型语言模型预测心理健康

我们在这项工作中，首次对多种大语言模型（LLMs）进行了全面评估，包括 Alpaca、Alpaca-LoRA 和 GPT-3.5，针对在线文本数据中的各种心理健康预测任务。我们进行了广泛的实验，涵盖了零样本提示、少样本提示和指令微调。研究结果表明，对于心理健康任务，LLMs 在零样本和少样本提示设计上具有有限但有希望的性能。更重要的是，我们的实验表明，指令微调可以显著提升 LLMs 在所有任务上的表现。我们最佳微调模型 Mental-Alpaca 在平衡精度上比 GPT-3.5（规模大 25 倍）高出 16.7％，并与最先进的任务特定模型相媲美。我们总结了一系列行动指南，供未来的研究人员、工程师和实践者参考，介绍如何赋予 LLMs 更好的心理健康领域知识，并成为心理健康预测任务的专家。

Jul, 2023

使用公共社交媒体数据评估大型语言模型在健康相关文本分类任务中的性能

我们评估了多种模型，包括传统机器学习模型、预训练语言模型和大型语言模型，比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明，使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果，并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。

Mar, 2024

大型语言模型用于心理健康研究的系统综述

总结和概括了大型语言模型（LLMs）在心理健康领域的应用，包括早期筛查、数字干预和其他临床应用领域的强项、限制、挑战和机遇，并指出了 LLMs 在心理健康问题检测和个性化医疗方面的有效性，同时也提出了关于文本一致性、幻觉内容和缺乏伦理框架的风险以及 LLMs 作为创新临床工具的进一步研究和发展的必要性，强调 LLMs 应该是专业心理健康服务的补充而非替代。

Feb, 2024

利用大型语言模型生成合成数据以提高基于 BERT 的神经网络的性能

利用大型语言模型（LLMs）生成的合成观察数据，用于改善机器学习模型对于自闭症谱系障碍（ASD）诊断的准确性。通过评估 ChatGPT 和 GPT-Premium 生成的 4,200 个合成观察数据，并使用预训练于生物医学文献的 BERT 分类器比较模型之间的性能差异，发现数据增加了召回率 13%，但降低了精确度 16%。未来的研究将分析不同合成数据特征对机器学习结果的影响。

May, 2024

谨言慎行：大型语言模型与内容管理

大型语言模型在内容审核中表现出的强大能力备受关注，本研究通过评估一系列商用的现代语言模型（GPT-3，GPT-3.5，GPT-4），在基于规则的社区审核和毒性内容检测两个常见任务中发现，这些模型在许多社区的审核上表现出很高的准确性和精确度，并且超越现有的商用毒性分类器，同时也指出了在毒性检测任务上模型规模增加对性能的边际益处，暗示了大型语言模型在毒性检测任务上可能达到了性能瓶颈。未来的工作可以继续研究大型语言模型和内容审核的发展方向。

Sep, 2023

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023