通过扩展 Reddit 帖子确定影响心理健康的健康维度
本文研究利用数据增强技术对社交媒体用户生成文本进行分类的效果,发现 Easy Data Augmentation,conditional BERT 和 Back Translation 等技术对于分类器性能的提高有潜力,这对于存在缺乏标记数据和倫理清晰的社会媒体平台上的自动生成的文本的心理健康分类是有意义的。
Dec, 2021
本研究使用 ChatGPT 生成合成数据,并使用语义搜索和余弦相似度来确定 Reddit 社交媒体句子对 BDI-II 症状的相关性,发现对于句子嵌入,使用专门用于语义搜索的模型胜过对精神健康数据进行预训练的模型。
Jul, 2023
本文研究提出一种新的文本数据增强方法,利用 GPT-2 生成病人电子病历中的临床记录作为额外的训练数据,用于预测病人的不良预后,实验证明了该数据增强方法的有效性。
Nov, 2022
当前精神健康危机中,从社交媒体内容中识别潜在的心理问题指标的重要性迅速增加。我们通过将 Reddit 内容中的健康维度的识别视为对健康概念提取和分类的挑战,引入了一种复杂的心理健康分析方法。我们构建了一个名为 WELLXPLAIN 的独特数据集,包括 3,092 个条目和总计 72,813 个词。该数据集还包括人工标注的文本片段,对健康概念分类过程中的决策提供了清晰的理由。我们发布这一数据集并分析初始基准的目的是引领面向医疗保健领域概念提取和分类的先进语言模型的创建。
Aug, 2023
本文提出了一种基于 ChatGPT 的文本数据增强方法(AugGPT),通过将训练样本中的每个句子重新表达为多个概念上相似但语义上不同的样本,提高了数据不变性和样本大小,并在少样本学习文本分类任务上取得了优越性能。
Feb, 2023
本研究探索了数据增强技术对文字分类的影响,使用多种数据增强技术,包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明,数据增强技术对模型性能只有轻微且不一致的改进,少数同义词替换可以提高模型性能,灰度缩放需要进一步研究,PTE 的表现优于监督学习,尤其是在类别容易分离的情况下。
Mar, 2023
本研究探索了一种名为 GenAug 的文本生成数据增强方法,利用包括外部知识在内的各种增强方法在 Yelp 评论的子集上进行 GPT-2 微调,并研究了增强数量与生成文本质量之间的关系,实验表明插入字符级合成噪声和使用上位词进行关键词替换是有效的增强方法,生成质量在原始数据量的三倍左右达到峰值。
Oct, 2020
利用大型语言模型(LLMs)生成的合成观察数据,用于改善机器学习模型对于自闭症谱系障碍(ASD)诊断的准确性。通过评估 ChatGPT 和 GPT-Premium 生成的 4,200 个合成观察数据,并使用预训练于生物医学文献的 BERT 分类器比较模型之间的性能差异,发现数据增加了召回率 13%,但降低了精确度 16%。未来的研究将分析不同合成数据特征对机器学习结果的影响。
May, 2024
通过分析社交媒体平台上人们的发帖和讨论,借助自然语言处理技术,本研究提出一种新颖的语义特征预处理技术,通过弱分类器减少特征稀疏性,采用模量循环实现自适应特征维度,深度挖掘和扩展上下文中的特征,训练一个机器学习模型来预测和分类精神障碍,通过 Reddit 精神健康数据集 2022 对焦虑、边缘型人格障碍和双相情感障碍等病症进行研究,解决了数据稀疏性挑战,显著提高了性能,为心理健康预测与监测提供创新解决方案。
Nov, 2023
该研究利用自然语言处理(NLP)流程来分析用于咨询的在线心理健康论坛的文本数据,以便快速识别需要紧急心理保健的人群。 通过分析论坛帖子,这些流程可以标记可能需要即时专业关注的用户。 本研究提出了两个模型:一个基于 BERT 的判别模型称为 CASE-BERT,根据论坛文本标记潜在的心理健康障碍;一个生成模型称为 CASE-Gemma,提取初步诊断的关键特征。 CASE-BERT 相较于现有方法表现出更好的性能,对抑郁症和焦虑症两种常见心理健康障碍的 f1 分数分别达到 0.91 和 0.88。CASE-Gemma 可以根据论坛文本生成诊断以达到 BERT 分数为 0.849。对 CASE-Gemma 的有效性进行了人工评估和定性方法评估,并得到了临床心理学家的合作。我们的代码可以在此 https URL 处获得。
Jun, 2024