ToMBench：大型语言模型中的心智理论基准测试

Feb, 2024

ToMBench：大型语言模型中的心智理论基准测试

ToMBench: Benchmarking Theory of Mind in Large Language Models

Zhuang Chen, Jincenzi Wu, Jinfeng Zhou, Bosi Wen, Guanqun Bi...

TL;DR大语言模型（LLMs）在理解和归因自我和他人的心智状态方面尚未达到人类水平，因此我们引入 ToMBench 评估框架以实现对 LLMs 的 ToM 能力的高效和有效评估。

Abstract

theory of mind (ToM) is the cognitive capability to perceive and ascribe mental states to oneself and others. Recent research has sparked a debate over whether large language models (→

theory of mind large language models tombench evaluation llms

发现论文，激发创造

大型语言模型中的心智理论：考察 11 种当前最先进模型与 7-10 岁儿童在高难度测试上的表现

我们通过测试 11 种基于基础模型和指令调整模型的能力来探讨大型语言模型（LLMs）在理解意图和信念（即心智理论）等认知能力方面的程度。我们发现，GPT 系列的调整模型表现优于其他模型和儿童。基础模型大多无法解决心智理论任务，即使有专门的提示。我们认为，语言和心智理论的互相关联可能解释了指令调整模型的增加：奖励考虑到对话者和语境的合作性交流。最后，我们呼吁在 LLMs 中对心智理论保持一个细致的观点。

Oct, 2023

HI-TOM：评估大型语言模型中高阶心智推理的基准

人的心智理论 (TOM) 能力是人类推理自己及他人心智状态的能力，在智力发展、语言理解及认知过程中起着关键作用。本研究引入了 HI-TOM，较高阶的心智理论基准。实验结果表明，基于大型语言模型 (LLM) 的性能在较高阶心智理论任务上出现下降，展示了现有 LLM 的局限性。我们对 LLM 不同失败案例进行了详细分析，并就我们的发现对自然语言处理未来的影响进行了讨论。

Oct, 2023

OpenToM: 评估大型语言模型理解他人心理思维能力的全面基准

机器学习中的神经心智理论 (N-ToM) 是理解和跟踪他人心理状态的关键，本研究构建了一个新的基准 OpenToM，通过长而清晰的叙述、具有明确人格特征的角色以及挑战人工智能模型对心理和心理世界中角色心理状态建模能力的设计提出了一些问题，揭示了最先进的模型在物理世界中对心理状态的建模方面表现出色，但在心理世界中的心理状态跟踪方面表现不足。

Feb, 2024

观点属于我，也属于你：使用共同基础理论对心智进行基准测试

通过自然发生的口语对话构建首个基于一般认知论 (ToM) 的数据集 Common-ToM，研究表明语言模型在表现 ToM 时存在困难，但通过融合简单明确的信念表示可以提高语言模型在 Common-ToM 上的性能。

Mar, 2024

利用语言模型理解语言模型中的社交推理

本研究通过创建一个新的社交推理基准，即 BigToM，来评估大型语言模型的社交推理能力，发现 GPT4 具有反映人类推理模式的理论思维能力，但不够可靠，而其他 LLM 则表现较差。

Jun, 2023

语言模型表达自我和他人的信念

通过神经激活语言模型，线性解码不同代理人的信念状态，发现其内部包含了自我和他人信念的表征，这些表征对社会推理过程具有关键作用，同时在不同因果推理模式的多种社会推理任务中表现出潜在的泛化能力。

Feb, 2024

通过离散世界模型的心智理论的复杂性概念

量化并衡量 ToM 任务的复杂度，并提出一种改进模型性能的技术 Discrete World Models (DWM)。

Jun, 2024

针对语言模型（缺乏）心智理论的插接式多角色信念追踪器

本文提出了 SymbolicToM，即一种通过显式符号表示来跟踪阅读理解任务中多个字符的信念状态、其对他字符信念状态估计及更高级别的推理的方法，该方法在 ToMi 基准测试中表现出了显著的理解能力提升。

Jun, 2023

大型语言模型的全面情境心智景观

大型语言模型（LLMs）在理论心理学的出现上引起了极大的兴趣和争议。我们通过心理学研究将机器的心理模拟（machine ToM）分为七个类别，并提出了一种更全面的评估方法，通过将 LLMs 放置在具体环境中进行评估，来避免捷径和数据泄露的风险。希望这篇观点论文能促进未来研究将机器 ToM 与 LLMs 结合起来，并为研究人员更好地定位自己的工作在 ToM 领域中提供一个直观的方式。

Oct, 2023

NegotiationToM: 一种用于测试机器思考他人心态的谈判基准

使用 NegotiationToM 基准测试表明，尽管使用了思维链式方法（CoT method），目前最先进的大型语言模型在人类情况下的表现明显较差。

Apr, 2024