利用大型语言模型识别考虑数字干预戒烟的 Reddit 用户
通过分析 Reddit 上的一个烟民子社群,本研究利用 OpenAI 最新的大型语言模型 GPT-4,比较了其预测结果与普通人和临床专家标注结果,并通过零 - shot、一 - shot、几 - shot 和思维链等不同策略进行说明任务。这些初步发现强调了 GPT-4 在社交媒体数据分析中的潜力,特别是在识别用户微妙意图方面,这是人类检测可能会忽略的。
Jun, 2024
儿童和青少年的心理健康在过去几年中不断恶化。大型语言模型(LLMs)的出现为监测和干预的成本和时间效率提供了很大希望。我们创建了一个 Reddit 帖子的新数据集,经过专家精神科医生的标注,用于以下类别:创伤,不稳定性,病情,症状,自杀倾向和治疗,并将专家标签与两个表现最佳的 LLMs(GPT3.5 和 GPT4)的注释进行比较。我们发现 GPT4 与人际标注者一致性的表现相当,并且合成数据的性能要高得多,但我们发现模型有时仍会在否定和事实性问题上犯错误,合成数据的更高性能是由于真实数据的复杂性而不是固有优势。
Apr, 2024
该研究探讨使用大型语言模型(LLMs)分析 Reddit 用户的文本评论,旨在实现两个主要目标:首先,找出支持预定义心理评估自杀风险的关键摘录;其次,总结材料以证实预先分配的自杀风险水平。该研究仅限于在本地运行的 “开源” LLMs 的使用,从而增强数据隐私。此外,该研究优先考虑计算要求低的模型,使其可供具有有限计算预算的个人和机构使用。该实施策略仅依靠精心设计的提示和语法来指导 LLM 的文本补全。尽管简单,评估指标显示出卓越结果,使其成为一种重要的关注隐私和成本效益的方法。这项工作是 2024 年计算语言学和临床心理学(CLPsych)共享任务的一部分。
Feb, 2024
本研究评估了使用大型语言模型(例如 GPT-4)和弱监督来识别 COVID-19 疫苗相关的推文,以与人工注释者的性能进行比较。通过手动筛选的黄金标准数据集,利用 GPT-4 在无须额外微调或指示的情况下提供标签,在单次模式下进行分析。
Sep, 2023
本研究旨在在中国社交媒体平台上评估大型语言模型对自杀风险和认知失真的识别能力,发现大型语言模型相较传统的监督学习方法存在较大的性能差距,尤其在微小类别的理解上,GPT-4 在多种情况下表现优异,而 GPT-3.5 经过微调后在自杀风险分类中显示出显著提升,表明大型语言模型在心理学领域具有前瞻性和变革性的应用潜力。
Sep, 2023
本文利用自然语言生成中存在的偏见漏洞,探索了六个不同在线社区的偏见。通过对 GPT-Neo 1.3B 进行精细调整,该文评估了生成模型的偏见,并通过不同的人口属性来比较情感和毒性价值,从而揭示了各种模型的偏见类型和强度的差异。此外,本文所生成的示例还展示了在偏见研究中使用自动情感和毒性分类器的局限性。
Jun, 2023
该文章介绍了使用 GPT-4(一个大型语言模型)快速可行性研究来(半)自动化系统性综述中的数据提取,在设计和评估 LLM-based 自动化工具方面仍然存在欠缺的问题。
May, 2024
利用 1990 年至 2016 年之间的 Vaccine Adverse Event Reporting System (VAERS) 数据,本研究重点评估了大型语言模型(LLMs)在不良事件(AEs)提取方面的能力,其中包括 GPT-2,GPT-3 变体,GPT-4 和 Llama 2 等多种流行 LLMs。其中,经过微调的 GPT 3.5 模型(AE-GPT)在严格匹配方面取得了 0.704 的平均微 F1 分数,松弛匹配方面为 0.816。AE-GPT 的鼓舞人心的表现突出了 LLMs 在处理医疗数据方面的潜力,标志着在高级 AE 检测方面又迈出了重要一步,因此可能推广到其他 AE 提取任务。
Sep, 2023
疫苗接种在社交媒体上引发了多种不同的公众意见,本研究评估了基于大型语言模型的 ChatGPT 用于情感分析,以识别人乳头瘤病毒(HPV)疫苗接种的不同立场,结果表明 ChatGPT 在分析社交媒体上的公众意见方面具有潜力,但需要在特定公共卫生背景下了解语言模型的特点和限制。
Apr, 2024
我们评估了多种模型,包括传统机器学习模型、预训练语言模型和大型语言模型,比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明,使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果,并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。
Mar, 2024