ToM-LM：在大型语言模型中将心智理论推理委托给外部符号执行器

Apr, 2024

ToM-LM：在大型语言模型中将心智理论推理委托给外部符号执行器

ToM-LM: Delegating Theory Of Mind Reasoning to External Symbolic Executors in Large Language Models

Weizhi Tang, Vaishak Belle

TL;DR我们的研究通过引入符号执行器和微调技术，改进了大型语言模型在心智理论推理中的表现，并通过对比实验证明了我们的方法对于推理能力的显著提升。

Abstract

theory of mind (ToM) refers to the ability of individuals to attribute mental states to others. While large language models (LLMs) have shown some promise with ToM ability, they still struggle with complex ToM re

theory of mind large language models smcdel model checker fine-tuning tom-lm

发现论文，激发创造

针对语言模型（缺乏）心智理论的插接式多角色信念追踪器

本文提出了 SymbolicToM，即一种通过显式符号表示来跟踪阅读理解任务中多个字符的信念状态、其对他字符信念状态估计及更高级别的推理的方法，该方法在 ToMi 基准测试中表现出了显著的理解能力提升。

Jun, 2023

HI-TOM：评估大型语言模型中高阶心智推理的基准

人的心智理论 (TOM) 能力是人类推理自己及他人心智状态的能力，在智力发展、语言理解及认知过程中起着关键作用。本研究引入了 HI-TOM，较高阶的心智理论基准。实验结果表明，基于大型语言模型 (LLM) 的性能在较高阶心智理论任务上出现下降，展示了现有 LLM 的局限性。我们对 LLM 不同失败案例进行了详细分析，并就我们的发现对自然语言处理未来的影响进行了讨论。

Oct, 2023

语言模型表达自我和他人的信念

通过神经激活语言模型，线性解码不同代理人的信念状态，发现其内部包含了自我和他人信念的表征，这些表征对社会推理过程具有关键作用，同时在不同因果推理模式的多种社会推理任务中表现出潜在的泛化能力。

Feb, 2024

ToMBench：大型语言模型中的心智理论基准测试

大语言模型（LLMs）在理解和归因自我和他人的心智状态方面尚未达到人类水平，因此我们引入 ToMBench 评估框架以实现对 LLMs 的 ToM 能力的高效和有效评估。

Feb, 2024

利用语言模型理解语言模型中的社交推理

本研究通过创建一个新的社交推理基准，即 BigToM，来评估大型语言模型的社交推理能力，发现 GPT4 具有反映人类推理模式的理论思维能力，但不够可靠，而其他 LLM 则表现较差。

Jun, 2023

LLM 是否具备类人推理能力？评估 LLM 对开放性回答的心智理论

利用 Reddit 的 ChangeMyView 平台的帖子，该研究评估了大型语言模型在处理心理理论推理时的能力，并通过提供人类意图和情感来增强模型表现，揭示了模型在开放式问题中与人类心理推理相比存在的差距。

Jun, 2024

大型语言模型中的心智理论：考察 11 种当前最先进模型与 7-10 岁儿童在高难度测试上的表现

我们通过测试 11 种基于基础模型和指令调整模型的能力来探讨大型语言模型（LLMs）在理解意图和信念（即心智理论）等认知能力方面的程度。我们发现，GPT 系列的调整模型表现优于其他模型和儿童。基础模型大多无法解决心智理论任务，即使有专门的提示。我们认为，语言和心智理论的互相关联可能解释了指令调整模型的增加：奖励考虑到对话者和语境的合作性交流。最后，我们呼吁在 LLMs 中对心智理论保持一个细致的观点。

Oct, 2023

通过离散世界模型的心智理论的复杂性概念

量化并衡量 ToM 任务的复杂度，并提出一种改进模型性能的技术 Discrete World Models (DWM)。

Jun, 2024

LLMs 在高阶心理理论任务上达到成年人类表现

研究分析了大型语言模型 (LLMs) 是否已经具有更高阶的心智理论 (ToM) 社会心智能力，通过引入多阶心智问答手写测试集并将其用于与新收集的成年人基准进行比较，我们发现 GPT-4 和 Flan-PaLM 在总体上达到了成年水平或接近成年水平的 ToM 任务表现，并且 GPT-4 在第六阶推理上超过了成年人的表现。研究结果表明，模型规模和微调在实现 ToM 能力方面存在相互作用，而表现最佳的 LLMs 已经发展出了一种普适的 ToM 能力。鉴于高阶 ToM 在广泛的人类合作和竞争行为中发挥的角色，这些发现对于面向用户的 LLM 应用具有重要意义。

May, 2024

再三思考：透视改善大型语言模型的心理理论能力

通过仿真理论的视角引导框架 SimToM，在 Theory of Mind (ToM) 的背景下，改进了大型语言模型（LLMs）的推理能力，无需额外训练和大量提示微调，从而实现了对 ToM 能力的显著提升。

Nov, 2023