Nov, 2023
PsyEval:一种用于精神健康领域的综合大型语言模型评估基准
PsyEval: A Comprehensive Large Language Model Evaluation Benchmark for Mental Health
Haoan Jin, Siyuan Chen, Mengyue Wu, Kenny Q. Zhu
TL;DR目前缺乏对大型语言模型(LLMs)在心理健康领域能力评估的全面基准。因此,我们填补该空白,并引入了首个适用于心理健康领域特点的全面基准,包括六个子任务、三个维度,系统评估 LLMs 在心理健康领域的能力。我们为每个子任务设计了相应的简明提示,并全面评估了八个先进的 LLMs 使用我们的基准。实验结果不仅展示了当前 LLMs 在心理健康方面的改进空间,还揭示了未来模型优化的潜在方向。