Feb, 2024

OpenToM: 评估大型语言模型理解他人心理思维能力的全面基准

TL;DR机器学习中的神经心智理论 (N-ToM) 是理解和跟踪他人心理状态的关键,本研究构建了一个新的基准 OpenToM,通过长而清晰的叙述、具有明确人格特征的角色以及挑战人工智能模型对心理和心理世界中角色心理状态建模能力的设计提出了一些问题,揭示了最先进的模型在物理世界中对心理状态的建模方面表现出色,但在心理世界中的心理状态跟踪方面表现不足。