May, 2023

ToMChallenges:探索心理理论的原则导向数据集和多元评估任务

TL;DR本研究通过创建 ToMChallenges 数据集以综合评估 Sally-Anne 和 Smarties 测试来测试大型语言模型对理解他人的心理状态的能力,包括现实性、信念、一阶信念和二阶信念,并通过创建适用于每个任务类别的独特提示来为不同任务适应我们的数据,旨在验证模型的 ToM。我们评估了两个 GPT-3.5 模型,text-davinci-003 和 gpt-3.5-turbo-0301,结果表明,在 ToM 任务中保持一致的表现仍然是一个挑战。