Nov, 2023

PsyEval:一种用于精神健康领域的综合大型语言模型评估基准

TL;DR目前缺乏对大型语言模型(LLMs)在心理健康领域能力评估的全面基准。因此,我们填补该空白,并引入了首个适用于心理健康领域特点的全面基准,包括六个子任务、三个维度,系统评估 LLMs 在心理健康领域的能力。我们为每个子任务设计了相应的简明提示,并全面评估了八个先进的 LLMs 使用我们的基准。实验结果不仅展示了当前 LLMs 在心理健康方面的改进空间,还揭示了未来模型优化的潜在方向。