大型语言模型与具备心智理论的智能体相距多远？

Oct, 2023

大型语言模型与具备心智理论的智能体相距多远？

How FaR Are Large Language Models From Agents with Theory-of-Mind?

Pei Zhou, Aman Madaan, Srividya Pranavi Potharaju, Aditya Gupta, Kevin R. McKee...

TL;DR人类可以从观察中推断他人的心理状态，然后从实用角度出发对这些推断进行干预。针对大型语言模型（LLMs）的新的评估范式 ——Thinking for Doing（T4D）要求模型将对他人心理状态的推断与社交情境中的行动联系起来。我们提出了一种零样本提示框架 ——Foresee and Reflect（FaR），该框架能够鼓励 LLMs 预测未来的挑战并合理推断潜在行动，从而提高 GPT-4 在 T4D 上的性能。

Abstract

"Thinking is for Doing." Humans can infer other people's mental states from observations--an ability called theory-of-mind (ToM)--and subsequently act pragmatically on those inferences. Existing question answering benchmarks such as ToMi ask models questions to make inferences about be

theory-of-mind evaluation paradigm large language models inferences about mental states zero-shot prompting framework

发现论文，激发创造

利用语言模型理解语言模型中的社交推理

本研究通过创建一个新的社交推理基准，即 BigToM，来评估大型语言模型的社交推理能力，发现 GPT4 具有反映人类推理模式的理论思维能力，但不够可靠，而其他 LLM 则表现较差。

Jun, 2023

通过提示提高大型语言模型的心理理论表现

本研究探讨在理解人的常识推理问题中，如何通过上下文学习和人类反馈和增强学习的方法来提高 LLMs（大型语言模型）的表现，结果表明适当的提示可以增强 LLMs ToM（心理理论）推理能力，这也强调了 LLMs 认知能力的依赖于上下文。

Apr, 2023

人机交互中大型语言模型对心理理论的能力：一种幻象？

通过研究大型语言模型在人机交互中的应用，本文探讨了理解机器生成行为的能力，特别是在承认他人心理状态方面，发现大型语言模型缺乏对无关紧要或微小变化的不变性。

Jan, 2024

再三思考：透视改善大型语言模型的心理理论能力

通过仿真理论的视角引导框架 SimToM，在 Theory of Mind (ToM) 的背景下，改进了大型语言模型（LLMs）的推理能力，无需额外训练和大量提示微调，从而实现了对 ToM 能力的显著提升。

Nov, 2023

大型语言模型中的心智理论：考察 11 种当前最先进模型与 7-10 岁儿童在高难度测试上的表现

我们通过测试 11 种基于基础模型和指令调整模型的能力来探讨大型语言模型（LLMs）在理解意图和信念（即心智理论）等认知能力方面的程度。我们发现，GPT 系列的调整模型表现优于其他模型和儿童。基础模型大多无法解决心智理论任务，即使有专门的提示。我们认为，语言和心智理论的互相关联可能解释了指令调整模型的增加：奖励考虑到对话者和语境的合作性交流。最后，我们呼吁在 LLMs 中对心智理论保持一个细致的观点。

Oct, 2023

通过大型语言模型实现多智能体协作的心智理论

评估了基于大型语言模型的多智能体协作文本游戏中的理论推理任务，并与多智能体强化学习和基于计划的基准进行比较。研究发现基于大型语言模型的智能体表现出紧密合作行为和高级理论推理能力，但也存在在管理长期视野环境和任务状态幻觉方面的规划优化限制。通过利用显式信念状态表示来减轻这些问题，改善了基于大型语言模型的智能体的任务表现和理论推理准确性。

Oct, 2023

LLMs 在高阶心理理论任务上达到成年人类表现

研究分析了大型语言模型 (LLMs) 是否已经具有更高阶的心智理论 (ToM) 社会心智能力，通过引入多阶心智问答手写测试集并将其用于与新收集的成年人基准进行比较，我们发现 GPT-4 和 Flan-PaLM 在总体上达到了成年水平或接近成年水平的 ToM 任务表现，并且 GPT-4 在第六阶推理上超过了成年人的表现。研究结果表明，模型规模和微调在实现 ToM 能力方面存在相互作用，而表现最佳的 LLMs 已经发展出了一种普适的 ToM 能力。鉴于高阶 ToM 在广泛的人类合作和竞争行为中发挥的角色，这些发现对于面向用户的 LLM 应用具有重要意义。

May, 2024

语言模型表达自我和他人的信念

通过神经激活语言模型，线性解码不同代理人的信念状态，发现其内部包含了自我和他人信念的表征，这些表征对社会推理过程具有关键作用，同时在不同因果推理模式的多种社会推理任务中表现出潜在的泛化能力。

Feb, 2024

针对语言模型（缺乏）心智理论的插接式多角色信念追踪器

本文提出了 SymbolicToM，即一种通过显式符号表示来跟踪阅读理解任务中多个字符的信念状态、其对他字符信念状态估计及更高级别的推理的方法，该方法在 ToMi 基准测试中表现出了显著的理解能力提升。

Jun, 2023

OpenToM: 评估大型语言模型理解他人心理思维能力的全面基准

机器学习中的神经心智理论 (N-ToM) 是理解和跟踪他人心理状态的关键，本研究构建了一个新的基准 OpenToM，通过长而清晰的叙述、具有明确人格特征的角色以及挑战人工智能模型对心理和心理世界中角色心理状态建模能力的设计提出了一些问题，揭示了最先进的模型在物理世界中对心理状态的建模方面表现出色，但在心理世界中的心理状态跟踪方面表现不足。

Feb, 2024