Apr, 2024

大型语言模型与专家相当:识别青少年在线论坛中的心理健康因素

TL;DR儿童和青少年的心理健康在过去几年中不断恶化。大型语言模型(LLMs)的出现为监测和干预的成本和时间效率提供了很大希望。我们创建了一个 Reddit 帖子的新数据集,经过专家精神科医生的标注,用于以下类别:创伤,不稳定性,病情,症状,自杀倾向和治疗,并将专家标签与两个表现最佳的 LLMs(GPT3.5 和 GPT4)的注释进行比较。我们发现 GPT4 与人际标注者一致性的表现相当,并且合成数据的性能要高得多,但我们发现模型有时仍会在否定和事实性问题上犯错误,合成数据的更高性能是由于真实数据的复杂性而不是固有优势。