Aug, 2023

感觉麻木还是有同理心?通过 EmotionBench 评估 LLMs 的感受

TL;DR利用心理学中的情感评估理论,我们提出了一种评估大型语言模型(LLMs)的同理心能力的方法,通过在具体情境中观察其感受变化。我们收集了超过 400 个情境,根据 8 种情绪将其分成 36 个因素,并进行了包含超过 1200 名全球参与者的人工评价实验。研究结果显示,尽管存在一些偏差,LLMs 总体能够适当地对特定情况做出反应,但仍然无法与人类的情绪行为建立联系。我们公开了情境数据集、人工评估结果以及我们的测试框架 EmotionBench 的代码,旨在提高 LLMs 在与人类情绪行为的对齐方面的应用价值和实用性。