SOS-1K: 用于中国社交媒体分析的细粒度自杀风险分类数据集

Apr, 2024

SOS-1K: 用于中国社交媒体分析的细粒度自杀风险分类数据集

SOS-1K: A Fine-grained Suicide Risk Classification Dataset for Chinese Social Media Analysis

Hongzhi Qi, Hanfei Liu, Jianqiang Li, Qing Zhao, Wei Zhai...

TL;DR通过开发深度学习模型以及使用中国社交媒体数据集，本研究提出了一种用于细粒度自杀风险分类的方法，为社交媒体平台上自动识别自杀倾向的个体并及时进行干预提供了有价值的见解。

Abstract

In the social media, users frequently express personal emotions, a subset of which may indicate potential suicidal tendencies. The implicit and varied forms of expression in internet language complicate accurate and rapid identification of →

social media suicidal intent deep learning models chinese social media dataset suicide risk classification

发现论文，激发创造

评估监督学习与大型语言模型对识别中国社交媒体中的认知扭曲和自杀风险的功效

本研究旨在在中国社交媒体平台上评估大型语言模型对自杀风险和认知失真的识别能力，发现大型语言模型相较传统的监督学习方法存在较大的性能差距，尤其在微小类别的理解上，GPT-4 在多种情况下表现优异，而 GPT-3.5 经过微调后在自杀风险分类中显示出显著提升，表明大型语言模型在心理学领域具有前瞻性和变革性的应用潜力。

Sep, 2023

使用语言学特征估算中国微博用户的自杀概率

通过微博等社交媒体识别自杀高危人群，实现积极的干预系统，本研究针对新浪微博的 1041 个用户，采用中文版 Linguistic Inquiry and Word Count（LIWC）词库和 LDA 等 NLP 方法提取语言特征，基于这两种特征通过机器学习算法训练预测模型，以估算基于语言特征的自杀概率。实验结果表明，LDA 能够找到与自杀概率相关的主题并提高预测性能，此研究为预测社交网络用户自杀概率行为增加了价值。

Nov, 2014

从社交媒体帖子中预测自杀行为的学习模型

提出深度学习架构并测试其他 3 种机器学习模型，使用 CLPsych 2021 共享任务中提供的社交媒体帖子数据自动检测将在 30 天和 6 个月内尝试自杀的个体；此外，基于自杀的三阶段理论和先前有关情绪和代词使用的工作，创建和提取三组手工制作的自杀风险检测特征，实验结果表明，一些传统的机器学习方法在子任务 1（预测自杀尝试 30 天前）上的 F1 得分为 0.741，F2 得分为 0.833，超过基线；然而，所提出的深度学习方法在子任务 2（预测 6 个月前的自杀）上的 F1 得分为 0.737，F2 得分为 0.843，超过基线。

Apr, 2021

在线咨询服务中自杀风险检测：低资源语言中的研究

通过结合预训练语言模型和手动构建的自杀线索集合，我们提出了一个模型来实现自杀风险的自动检测，从而在紧急支持在线服务中支持自杀预防。该模型在跨性别与不同年龄组等多个方面表现良好，并在会话早期就明显优于强基线模型。

Sep, 2022

使用深度学习进行自杀意念检测的定量和定性分析

本文研究了如何使用深度学习算法来检测社交媒体上的自杀意念，并评估了不同数据集和深度学习模型的性能。研究证实，使用深度学习对社交媒体上的自杀意念检测效果较好，但其表现高度依赖于数据集的质量。

Jun, 2022

使用心理词典检测中国微博中的自杀意念

利用机器学习和心理学技术，我们在微博上部署了实时自杀意念检测系统，使用心理语言学字典识别微博用户的自杀意图，并训练了一个有效的自杀微博帖子检测模型，该模型结合机器学习和心理学知识，使用 SVM 分类器，具有最佳性能，F 值为 68.3％，精度为 78.9％，召回率为 60.3％。

Nov, 2014

基于大规模预训练模型的中国心理支持热线细粒度言论情感分析

通过分析北京心理支持热线的语音数据，我们开发了负面情绪识别模型和细粒度多标签分类模型，并探讨了其临床应用可能性。

May, 2024

通过半监督深度标签平滑技术增强社交媒体上的自杀风险检测

通过使用模糊或软标签的半监督深度标签平滑方法，在 Reddit C-SSRS 数据集上的五个标签多类分类问题中，我们将分类准确性从现有研究报道的 43％提高到 52％，这有潜力更好地支持那些经历心理困扰的人们。未来的工作应该探索在嘈杂数据集中同时进行自然语言处理和量化认识不确定性和已知不确定性的概率方法的使用。

May, 2024

利用大型语言模型进行自杀意念检测的社交感知合成数据生成

使用生成式人工智能模型，如 ChatGPT、Flan-T5 和 Llama，通过利用社会因素从心理学文献中提取的数据，创造了可用于自杀倾向检测的合成数据，结果表明这种方法在克服数据匮乏和数据表征多样性等领域主要挑战方面具有潜力。

Jan, 2024

利用 Whisper 和大型语言模型进行基于自发语音的自杀风险检测

对于自杀风险的早期检测非常重要，本研究通过青少年自发言语对自杀风险进行自动检测，并收集了汉语数据集，包括来自千名年龄在十到十八岁之间的青少年 15 小时的自杀言语进行实验。通过使用 Whisper 语音模型和大型文本语言模型 (LLM) 来检测自杀风险，采用了全参数微调和参数效率微调方法来适应预训练模型，评估了多种音频文本融合方法来结合 Whisper 和 LLM 的表示，所提出的系统在包括 119 名受试者的测试集上达到了 0.807 的检测准确度和 0.846 的 F1 分数，表明具有潜在的真实自杀风险检测应用前景。

Jun, 2024