WellDunn：关于语言模型和大型语言模型在识别健康维度中的稳健性和可解释性

Jun, 2024

WellDunn：关于语言模型和大型语言模型在识别健康维度中的稳健性和可解释性

WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions

PDF

Seyedali Mohammadi, Edward Raff, Jinendra Malekar, Vedant Palit, Francis Ferraro...

TL;DR语言模型在精神健康应用中的可信度、解释性和一致性的研究表明，现有研究中这些模型的注意力质量及其对真实解释的影响尚未被探究，而本研究提出了一个评估设计，聚焦于在鉴别健康维度方面的 LMs 和 LLMs 在多标签分类和解释性方面的鲁棒性和可解释性，并发现了一些令人惊讶的结果，强调进一步研究这些模型在精神健康领域的一致性和解释性的必要性。

Abstract

language models (LMs) are being proposed for mental health applications where the heightened risk of adverse outcomes means predictive performance may not be a sufficient litmus test of a model's utility in clini

language models mental health applications attention fidelity wellness dimensions explanations

发现论文，激发创造

关于在心理健康应用中重新思考大型语言模型

大型语言模型在心理健康方面表现出很大的潜力，但使用它们时需要保持谨慎和考虑，把它们视为辅助人类专业技术而非替代品，因为它们可能产生幻觉般的输出，并且在心理健康咨询中，人类辅导员的情感理解、细致解读和背景意识仍然不可替代。

Nov, 2023

利用大型语言模型揭示和缓解心理健康分析中的偏见

大型语言模型的进展展示了在各个应用领域的强大能力，包括心理健康分析。然而，现有的研究着重于预测性能，对公平性这一关键问题的探讨不足，给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集，使用十种不同的提示方法，系统地评估了七个社会因素的偏见。结果表明，GPT-4 在性能和公平性方面实现了最佳的平衡，尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外，我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见，凸显了在该领域进行公平分析的巨大潜力。

Jun, 2024

通过大型语言模型理解心理健康的评估

评估大型语言模型在理解人类心理健康状况表达方面的潜力，结果显示，基于 Transformer 的模型（如 BERT 和 XLNet）在 DAIC-WOZ 数据集上表现优于大型语言模型。

Jan, 2024

大型语言模型用于心理健康研究的系统综述

总结和概括了大型语言模型（LLMs）在心理健康领域的应用，包括早期筛查、数字干预和其他临床应用领域的强项、限制、挑战和机遇，并指出了 LLMs 在心理健康问题检测和个性化医疗方面的有效性，同时也提出了关于文本一致性、幻觉内容和缺乏伦理框架的风险以及 LLMs 作为创新临床工具的进一步研究和发展的必要性，强调 LLMs 应该是专业心理健康服务的补充而非替代。

Feb, 2024

大型语言模型能自我解释吗？

利用自洽性检查作为一种忠实度测量，将其应用于大型语言模型自我解释的三种类型，即反事实解释、重要性度量和删除。通过不同任务和模型，发现忠实度是任务和模型相关的，例如对于情感分类，Llama2 的反事实解释、Mistral 的重要性度量和 Falcon 40B 的删除是更加忠实的。最后，我们的发现在提示变体方面是稳健的。

Jan, 2024

MentalLLaMA: 基于大型语言模型的社交媒体可解释性心理健康分析

开发了第一个用于社交媒体上的可解释性心理健康分析的开源语言模型系列 MentalLLaMA，并通过 IMHI 数据集在正确性和解释质量方面接近最先进的判别方法。

Sep, 2023

从理解到应用：关于大型语言模型可解释性的调查

本文探讨大型语言模型（LLMs）的可解释性领域，强调了增强 LLMs 可解释性的必要性，重点关注预训练的基于 Transformer 的 LLMs，如 LLaMA，以及改善模型透明度和可靠性的解释性方法和评估方法的分类与讨论。

Jan, 2024

大型语言模型的可解释性概述

对大型语言模型的解释技术进行分类和总结，并讨论了这些技术在训练范式、生成局部解释和全局解释方面的应用以及评估指标、调试模型和提高性能的挑战和机会。

Sep, 2023

大型语言模型作为忠实的解释器

介绍了一种提高大型语言模型的自然语言解释质量的生成解释框架 xLLM，该框架通过评估器和迭代优化过程来最大化生成解释的忠实度分数，实验证明 xLLM 可以显著提高生成解释的忠实度。

Feb, 2024

大型语言模型与专家相当：识别青少年在线论坛中的心理健康因素

儿童和青少年的心理健康在过去几年中不断恶化。大型语言模型（LLMs）的出现为监测和干预的成本和时间效率提供了很大希望。我们创建了一个 Reddit 帖子的新数据集，经过专家精神科医生的标注，用于以下类别：创伤，不稳定性，病情，症状，自杀倾向和治疗，并将专家标签与两个表现最佳的 LLMs（GPT3.5 和 GPT4）的注释进行比较。我们发现 GPT4 与人际标注者一致性的表现相当，并且合成数据的性能要高得多，但我们发现模型有时仍会在否定和事实性问题上犯错误，合成数据的更高性能是由于真实数据的复杂性而不是固有优势。

Apr, 2024