大型语言模型中的心智理论：考察 11 种当前最先进模型与 7-10 岁儿童在高难度测试上的表现

Oct, 2023

大型语言模型中的心智理论：考察 11 种当前最先进模型与 7-10 岁儿童在高难度测试上的表现

Theory of Mind in Large Language Models: Examining Performance of 11 State-of-the-Art models vs. Children Aged 7-10 on Advanced Tests

PDF

Max J. van Duijn, Bram M.A. van Dijk, Tom Kouwenhoven, Werner de Valk, Marco R. Spruit...

TL;DR我们通过测试 11 种基于基础模型和指令调整模型的能力来探讨大型语言模型（LLMs）在理解意图和信念（即心智理论）等认知能力方面的程度。我们发现，GPT 系列的调整模型表现优于其他模型和儿童。基础模型大多无法解决心智理论任务，即使有专门的提示。我们认为，语言和心智理论的互相关联可能解释了指令调整模型的增加：奖励考虑到对话者和语境的合作性交流。最后，我们呼吁在 LLMs 中对心智理论保持一个细致的观点。

Abstract

To what degree should we ascribe cognitive capacities to Large Language Models (LLMs), such as the ability to reason about intentions and beliefs known as theory of mind (ToM)? Here we add to this emerging debate

large language models cognitive capacities theory of mind instruction-tuned llms tom tasks

发现论文，激发创造

LLMs 在高阶心理理论任务上达到成年人类表现

研究分析了大型语言模型 (LLMs) 是否已经具有更高阶的心智理论 (ToM) 社会心智能力，通过引入多阶心智问答手写测试集并将其用于与新收集的成年人基准进行比较，我们发现 GPT-4 和 Flan-PaLM 在总体上达到了成年水平或接近成年水平的 ToM 任务表现，并且 GPT-4 在第六阶推理上超过了成年人的表现。研究结果表明，模型规模和微调在实现 ToM 能力方面存在相互作用，而表现最佳的 LLMs 已经发展出了一种普适的 ToM 能力。鉴于高阶 ToM 在广泛的人类合作和竞争行为中发挥的角色，这些发现对于面向用户的 LLM 应用具有重要意义。

May, 2024

ToMBench：大型语言模型中的心智理论基准测试

大语言模型（LLMs）在理解和归因自我和他人的心智状态方面尚未达到人类水平，因此我们引入 ToMBench 评估框架以实现对 LLMs 的 ToM 能力的高效和有效评估。

Feb, 2024

语言模型表达自我和他人的信念

通过神经激活语言模型，线性解码不同代理人的信念状态，发现其内部包含了自我和他人信念的表征，这些表征对社会推理过程具有关键作用，同时在不同因果推理模式的多种社会推理任务中表现出潜在的泛化能力。

Feb, 2024

人机交互中大型语言模型对心理理论的能力：一种幻象？

通过研究大型语言模型在人机交互中的应用，本文探讨了理解机器生成行为的能力，特别是在承认他人心理状态方面，发现大型语言模型缺乏对无关紧要或微小变化的不变性。

Jan, 2024

语言模型中的心智理论可能已自发涌现

通过对多个语言模型进行人类 “心灵理论” 测试，研究发现自 2020 年发布的 GPT-3 版本以来语言模型在解决伪信念问题上的表现已经逐渐逼近人类的表现水平

Feb, 2023

利用语言模型理解语言模型中的社交推理

本研究通过创建一个新的社交推理基准，即 BigToM，来评估大型语言模型的社交推理能力，发现 GPT4 具有反映人类推理模式的理论思维能力，但不够可靠，而其他 LLM 则表现较差。

Jun, 2023

具有心智理论的计算语言习得

本研究为了衡量 Theory of Mind（意念）在语言学习中的影响，在现有 ToM 的版本上，建立了能够融合 ToM 的语言学习代理，并通过实验，证实高度融合 ToM listener 组件的训练，可以在图像指称游戏环境中获得更好的性能，这表明在计算语言习得中进一步结合 ToM 以及儿童语言习得研究的潜在效用。

Mar, 2023

针对语言模型（缺乏）心智理论的插接式多角色信念追踪器

本文提出了 SymbolicToM，即一种通过显式符号表示来跟踪阅读理解任务中多个字符的信念状态、其对他字符信念状态估计及更高级别的推理的方法，该方法在 ToMi 基准测试中表现出了显著的理解能力提升。

Jun, 2023

通过大型语言模型实现多智能体协作的心智理论

评估了基于大型语言模型的多智能体协作文本游戏中的理论推理任务，并与多智能体强化学习和基于计划的基准进行比较。研究发现基于大型语言模型的智能体表现出紧密合作行为和高级理论推理能力，但也存在在管理长期视野环境和任务状态幻觉方面的规划优化限制。通过利用显式信念状态表示来减轻这些问题，改善了基于大型语言模型的智能体的任务表现和理论推理准确性。

Oct, 2023

再三思考：透视改善大型语言模型的心理理论能力

通过仿真理论的视角引导框架 SimToM，在 Theory of Mind (ToM) 的背景下，改进了大型语言模型（LLMs）的推理能力，无需额外训练和大量提示微调，从而实现了对 ToM 能力的显著提升。

Nov, 2023