EMNLPOct, 2023

HI-TOM:评估大型语言模型中高阶心智推理的基准

TL;DR人的心智理论 (TOM) 能力是人类推理自己及他人心智状态的能力,在智力发展、语言理解及认知过程中起着关键作用。本研究引入了 HI-TOM,较高阶的心智理论基准。实验结果表明,基于大型语言模型 (LLM) 的性能在较高阶心智理论任务上出现下降,展示了现有 LLM 的局限性。我们对 LLM 不同失败案例进行了详细分析,并就我们的发现对自然语言处理未来的影响进行了讨论。