ToMChallenges：探索心理理论的原则导向数据集和多元评估任务

May, 2023

ToMChallenges：探索心理理论的原则导向数据集和多元评估任务

ToMChallenges: A Principle-Guided Dataset and Diverse Evaluation Tasks for Exploring Theory of Mind

Xiaomeng Ma, Lingyu Gao, Qihui Xu

TL;DR本研究通过创建 ToMChallenges 数据集以综合评估 Sally-Anne 和 Smarties 测试来测试大型语言模型对理解他人的心理状态的能力，包括现实性、信念、一阶信念和二阶信念，并通过创建适用于每个任务类别的独特提示来为不同任务适应我们的数据，旨在验证模型的 ToM。我们评估了两个 GPT-3.5 模型，text-davinci-003 和 gpt-3.5-turbo-0301，结果表明，在 ToM 任务中保持一致的表现仍然是一个挑战。

Abstract

theory of mind (ToM), the capacity to comprehend the mental states of distinct individuals, is essential for numerous practical applications. With the development of large language models, there is a heated debat

theory of mind large language models tomchallenges sally-anne test smarties test

发现论文，激发创造

ToMBench：大型语言模型中的心智理论基准测试

大语言模型（LLMs）在理解和归因自我和他人的心智状态方面尚未达到人类水平，因此我们引入 ToMBench 评估框架以实现对 LLMs 的 ToM 能力的高效和有效评估。

Feb, 2024

语言模型中的心智理论可能已自发涌现

通过对多个语言模型进行人类 “心灵理论” 测试，研究发现自 2020 年发布的 GPT-3 版本以来语言模型在解决伪信念问题上的表现已经逐渐逼近人类的表现水平

Feb, 2023

针对语言模型（缺乏）心智理论的插接式多角色信念追踪器

本文提出了 SymbolicToM，即一种通过显式符号表示来跟踪阅读理解任务中多个字符的信念状态、其对他字符信念状态估计及更高级别的推理的方法，该方法在 ToMi 基准测试中表现出了显著的理解能力提升。

Jun, 2023

评估问答中的心智理论

本研究提出了一个新的数据集，旨在评估问答模型在理解信仰和状态一致性方面的推理能力，评估多个带有记忆增强的神经模型，发现这些模型在需要跟踪世界不一致状态的任务中均失败，而且当试验中引入随机句子时，模型的准确性明显下降。

Aug, 2018

机器心智理论综述

本文综述了近年来关于机器 Theory of Mind（ToM）在信仰、欲望和意图方面的进展，概括了不同任务和数据集的发展，并比较了具有优势、局限性和适用条件的模型。我们认为，提出标准的评估标准和数据集，特别是覆盖了 ToM 多个方面的大规模数据集，是解决这种困难的方法之一。

Mar, 2023

MindGames: 利用动态认识模态逻辑针对大型语言模型的心灵游戏

本文通过运用动态认知逻辑以生成更为复杂的问题，以及新颖的语言表述技术来表达这些问题，研究表明 70M 到 6B 和 350M 到 174B 的语言模型规模并不总是比随机投票更好，并且 GPT-4 表现出了更优秀的认知推理能力，但仍有待提高。

May, 2023

通过离散世界模型的心智理论的复杂性概念

量化并衡量 ToM 任务的复杂度，并提出一种改进模型性能的技术 Discrete World Models (DWM)。

Jun, 2024

OpenToM: 评估大型语言模型理解他人心理思维能力的全面基准

机器学习中的神经心智理论 (N-ToM) 是理解和跟踪他人心理状态的关键，本研究构建了一个新的基准 OpenToM，通过长而清晰的叙述、具有明确人格特征的角色以及挑战人工智能模型对心理和心理世界中角色心理状态建模能力的设计提出了一些问题，揭示了最先进的模型在物理世界中对心理状态的建模方面表现出色，但在心理世界中的心理状态跟踪方面表现不足。

Feb, 2024

大型语言模型中的心智理论：考察 11 种当前最先进模型与 7-10 岁儿童在高难度测试上的表现

我们通过测试 11 种基于基础模型和指令调整模型的能力来探讨大型语言模型（LLMs）在理解意图和信念（即心智理论）等认知能力方面的程度。我们发现，GPT 系列的调整模型表现优于其他模型和儿童。基础模型大多无法解决心智理论任务，即使有专门的提示。我们认为，语言和心智理论的互相关联可能解释了指令调整模型的增加：奖励考虑到对话者和语境的合作性交流。最后，我们呼吁在 LLMs 中对心智理论保持一个细致的观点。

Oct, 2023

HI-TOM：评估大型语言模型中高阶心智推理的基准

人的心智理论 (TOM) 能力是人类推理自己及他人心智状态的能力，在智力发展、语言理解及认知过程中起着关键作用。本研究引入了 HI-TOM，较高阶的心智理论基准。实验结果表明，基于大型语言模型 (LLM) 的性能在较高阶心智理论任务上出现下降，展示了现有 LLM 的局限性。我们对 LLM 不同失败案例进行了详细分析，并就我们的发现对自然语言处理未来的影响进行了讨论。

Oct, 2023