Aug, 2023

感觉麻木还是有同理心? 通过EmotionBench评估LLMs的感受

TL;DR利用心理学中的情感评估理论,我们提出了一种评估大型语言模型(LLMs)的同理心能力的方法,通过在具体情境中观察其感受变化。我们收集了超过400个情境,根据8种情绪将其分成36个因素,并进行了包含超过1200名全球参与者的人工评价实验。研究结果显示,尽管存在一些偏差,LLMs总体能够适当地对特定情况做出反应,但仍然无法与人类的情绪行为建立联系。我们公开了情境数据集、人工评估结果以及我们的测试框架EmotionBench的代码,旨在提高LLMs在与人类情绪行为的对齐方面的应用价值和实用性。