Apr, 2025

重新思考面向用户的LLM心智理论基准

TL;DR本研究针对现有的基于人类心智理论任务评估大型语言模型(LLMs)社交智能的局限性进行了探讨。我们提出了一种人机交互视角的动态和互动的方法,重新定义和修订了心智理论基准,以更好地反映用户的偏好、需求和体验。这一方法的主要发现是,改进的基准可以提高对LLM心智理论能力的评估准确性和实用性。