通过扩展 Reddit 帖子确定影响心理健康的健康维度

Jun, 2023

通过扩展 Reddit 帖子确定影响心理健康的健康维度

Augmenting Reddit Posts to Determine Wellness Dimensions impacting Mental Health

Chandreen Liyanage, Muskan Garg, Vijay Mago, Sunghwan Sohn

TL;DR本文提出了一种基于生成式 NLP 模型的简单而有效的数据增强方法，称为 prompt-based，应用于 Wellness Dimensions 的分类预筛选任务，该方法不仅优于 Easy-Data Augmentation 和 Backtranslation 等基线方法，而且在 F 分数和 Matthew 的相关系数方面均实现了明显的改进。

Abstract

Amid ongoing health crisis, there is a growing necessity to discern possible signs of wellness dimensions (WD) manifested in self-narrated text. As the distribution of WD on social media data is intrinsically imbalanced, we experiment the →

wellness dimensions generative nlp models data augmentation chatgpt model pre-screening task

发现论文，激发创造

社交媒体中的心理健康分类数据增强

本文研究利用数据增强技术对社交媒体用户生成文本进行分类的效果，发现 Easy Data Augmentation，conditional BERT 和 Back Translation 等技术对于分类器性能的提高有潜力，这对于存在缺乏标记数据和倫理清晰的社会媒体平台上的自动生成的文本的心理健康分类是有意义的。

Dec, 2021

利用 ChatGPT 生成的数据从社交媒体检索抑郁症状

本研究使用 ChatGPT 生成合成数据，并使用语义搜索和余弦相似度来确定 Reddit 社交媒体句子对 BDI-II 症状的相关性，发现对于句子嵌入，使用专门用于语义搜索的模型胜过对精神健康数据进行预训练的模型。

Jul, 2023

用于患者预后预测的文本数据增强

本文研究提出一种新的文本数据增强方法，利用 GPT-2 生成病人电子病历中的临床记录作为额外的训练数据，用于预测病人的不良预后，实验证明了该数据增强方法的有效性。

Nov, 2022

WellXplain：Reddit 帖子中的健康概念提取与分类，用于心理健康分析

当前精神健康危机中，从社交媒体内容中识别潜在的心理问题指标的重要性迅速增加。我们通过将 Reddit 内容中的健康维度的识别视为对健康概念提取和分类的挑战，引入了一种复杂的心理健康分析方法。我们构建了一个名为 WELLXPLAIN 的独特数据集，包括 3,092 个条目和总计 72,813 个词。该数据集还包括人工标注的文本片段，对健康概念分类过程中的决策提供了清晰的理由。我们发布这一数据集并分析初始基准的目的是引领面向医疗保健领域概念提取和分类的先进语言模型的创建。

Aug, 2023

AugGPT：利用 ChatGPT 进行文本数据增强

本文提出了一种基于 ChatGPT 的文本数据增强方法（AugGPT），通过将训练样本中的每个句子重新表达为多个概念上相似但语义上不同的样本，提高了数据不变性和样本大小，并在少样本学习文本分类任务上取得了优越性能。

Feb, 2023

探索社交媒体语料库上的数据增强方法

本研究探索了数据增强技术对文字分类的影响，使用多种数据增强技术，包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明，数据增强技术对模型性能只有轻微且不一致的改进，少数同义词替换可以提高模型性能，灰度缩放需要进一步研究，PTE 的表现优于监督学习，尤其是在类别容易分离的情况下。

Mar, 2023

GenAug：用于微调文本生成器的数据增强

本研究探索了一种名为 GenAug 的文本生成数据增强方法，利用包括外部知识在内的各种增强方法在 Yelp 评论的子集上进行 GPT-2 微调，并研究了增强数量与生成文本质量之间的关系，实验表明插入字符级合成噪声和使用上位词进行关键词替换是有效的增强方法，生成质量在原始数据量的三倍左右达到峰值。

Oct, 2020

利用大型语言模型生成合成数据以提高基于 BERT 的神经网络的性能

利用大型语言模型（LLMs）生成的合成观察数据，用于改善机器学习模型对于自闭症谱系障碍（ASD）诊断的准确性。通过评估 ChatGPT 和 GPT-Premium 生成的 4,200 个合成观察数据，并使用预训练于生物医学文献的 BERT 分类器比较模型之间的性能差异，发现数据增加了召回率 13%，但降低了精确度 16%。未来的研究将分析不同合成数据特征对机器学习结果的影响。

May, 2024

数字时代的心理健康诊断：在社交媒体平台上利用情感分析对稀疏特征内容进行利用

通过分析社交媒体平台上人们的发帖和讨论，借助自然语言处理技术，本研究提出一种新颖的语义特征预处理技术，通过弱分类器减少特征稀疏性，采用模量循环实现自适应特征维度，深度挖掘和扩展上下文中的特征，训练一个机器学习模型来预测和分类精神障碍，通过 Reddit 精神健康数据集 2022 对焦虑、边缘型人格障碍和双相情感障碍等病症进行研究，解决了数据稀疏性挑战，显著提高了性能，为心理健康预测与监测提供创新解决方案。

Nov, 2023

CASE：为构建生成性和辨别性辅助心理学专家模型进行课程数据预训练

该研究利用自然语言处理（NLP）流程来分析用于咨询的在线心理健康论坛的文本数据，以便快速识别需要紧急心理保健的人群。通过分析论坛帖子，这些流程可以标记可能需要即时专业关注的用户。本研究提出了两个模型：一个基于 BERT 的判别模型称为 CASE-BERT，根据论坛文本标记潜在的心理健康障碍；一个生成模型称为 CASE-Gemma，提取初步诊断的关键特征。 CASE-BERT 相较于现有方法表现出更好的性能，对抑郁症和焦虑症两种常见心理健康障碍的 f1 分数分别达到 0.91 和 0.88。CASE-Gemma 可以根据论坛文本生成诊断以达到 BERT 分数为 0.849。对 CASE-Gemma 的有效性进行了人工评估和定性方法评估，并得到了临床心理学家的合作。我们的代码可以在此 https URL 处获得。

Jun, 2024