Jun, 2024

大型语言模型是否比人类更具移情能力?

TL;DR本研究通过与人类基准对比的方式,综合评估了四个最先进的大型语言模型(GPT-4、LLaMA-2、Mixtral-8x7B 和 Gemini-Pro)在共 2000 个情感对话提示中的回应中的移情能力。我们的发现显示,大型语言模型在移情回应能力上显著超过人类,其中 GPT-4 的回应被评为“好”的比例比人类基准提高了约 31%。此外,我们发现不同的大型语言模型在回应不同情感时表现显著不同。基于研究结果,我们提出了一种可扩展和可适应的评估框架,用于评估新大型语言模型的移情能力,避免了未来研究中重复这项研究的需求。