Jun, 2023

基于社交媒体的自杀风险评估研究:模型性能、潜力和局限性的定量评估

TL;DR本文基于社交媒体帖子利用马里兰大学 Reddit 自杀数据集,提出了一种对交互式 ChatGPT 模型进行自杀性评估的量化评估框架,并通过零样本和少样本实验对 ChatGPT 在此任务上的性能进行了技术评估,并将其结果与两个经过微调的基于变压器的模型的结果进行比较,研究不同温度参数对 ChatGPT 响应生成的影响,并根据 ChatGPT 的不确定性率讨论最佳温度。我们的结果表明,虽然 ChatGPT 在这项任务中获得了相当的准确性,但对人工注释数据集进行微调的基于变压器的模型表现出更优异的性能。此外,我们的分析揭示了调整 ChatGPT 的超参数如何提高其协助心理健康专业人士完成此关键任务的能力。