Nov, 2023

PsyBench: 一个平衡且深入的心理学中文评估基准

TL;DRLLMs 在各领域越来越普及,因此迫切需要改进的 NLP 基准来涵盖各个学科的必要知识。为了解决这个问题,作者提出了 psybench,这是第一个详尽覆盖研究领域所需知识的全面中文评估套件,通过多项选择题深入评估模型在心理学中的优势和劣势,并发现不同领域的性能存在显著差异,展示了测试集中知识不均衡可能导致结果偏斜的风险,仅 ChatGPT 模型的平均准确率超过 70%,表明仍有很大的改进空间。总之,psybench 将有助于对基本模型的优势和劣势进行全面评估,并在心理学领域的实际应用中提供支持。