语言模型中心理状态表征的基准测试

ICMLJun, 2024

语言模型中心理状态表征的基准测试

Benchmarking Mental State Representations in Language Models

Matteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling

TL;DR用各种语言模型和不同的模型大小、微调方法和提示设计进行广泛的基准测试，研究了心理状态表征的鲁棒性和记忆问题，并首次研究了提示变化对心智任务的探测性能的影响。结果表明，模型对他人信念的内部表征质量随模型大小和微调的增加而提高。此外，我们证明了模型的表征对提示的变化非常敏感，即使这些变化本应有益。最后，通过引导模型的激活，成功改善了模型的推理性能，无需训练任何探测器。

Abstract

While numerous works have assessed the generative performance of language models (LMs) on tasks requiring Theory of Mind reasoning, research into the models' internal representation of mental states remains limited. Recent work has used probing to demonstrate that LMs can represent beliefs of themselves and others. However, these claims are accompanied by li

language models mental state representations lm types model size fine-tuning

发现论文，激发创造

语言模型表达自我和他人的信念

通过神经激活语言模型，线性解码不同代理人的信念状态，发现其内部包含了自我和他人信念的表征，这些表征对社会推理过程具有关键作用，同时在不同因果推理模式的多种社会推理任务中表现出潜在的泛化能力。

Feb, 2024

ToMBench：大型语言模型中的心智理论基准测试

大语言模型（LLMs）在理解和归因自我和他人的心智状态方面尚未达到人类水平，因此我们引入 ToMBench 评估框架以实现对 LLMs 的 ToM 能力的高效和有效评估。

Feb, 2024

大型语言模型中的心智理论：考察 11 种当前最先进模型与 7-10 岁儿童在高难度测试上的表现

我们通过测试 11 种基于基础模型和指令调整模型的能力来探讨大型语言模型（LLMs）在理解意图和信念（即心智理论）等认知能力方面的程度。我们发现，GPT 系列的调整模型表现优于其他模型和儿童。基础模型大多无法解决心智理论任务，即使有专门的提示。我们认为，语言和心智理论的互相关联可能解释了指令调整模型的增加：奖励考虑到对话者和语境的合作性交流。最后，我们呼吁在 LLMs 中对心智理论保持一个细致的观点。

Oct, 2023

大型语言模型是否知道人类所知道的？

通过评估大量语言暴露对理解心灵理论的影响，发现语言的统计学学习能够部分解释人类认知发展中心灵理论的发展，但是其他机制也起到重要作用，因为最先进的语言模型 GPT-3 尽管暴露于更多的语言环境下，但其表现并不能完全解释人类的行为

Sep, 2022

通过提示提高大型语言模型的心理理论表现

本研究探讨在理解人的常识推理问题中，如何通过上下文学习和人类反馈和增强学习的方法来提高 LLMs（大型语言模型）的表现，结果表明适当的提示可以增强 LLMs ToM（心理理论）推理能力，这也强调了 LLMs 认知能力的依赖于上下文。

Apr, 2023

针对语言模型（缺乏）心智理论的插接式多角色信念追踪器

本文提出了 SymbolicToM，即一种通过显式符号表示来跟踪阅读理解任务中多个字符的信念状态、其对他字符信念状态估计及更高级别的推理的方法，该方法在 ToMi 基准测试中表现出了显著的理解能力提升。

Jun, 2023

PHAnToM: 大型语言模型中个性对心智理论推理的影响

通过在大型语言模型中引入个性化的提示来诱导其特定的人格特质，研究发现这种引入显著影响了模型在心智理论推理任务中的推理能力。

Mar, 2024

揭示大语言模型中的心智理论：与人脑单个神经元的相似

大型语言模型展现出与人类理论心智联系紧密的特征，与人脑大脑网络中的神经元相似，通过类似方法检验了嵌入在语言模型中的人工神经元对他人信念的代表能力，揭示了模型与人脑神经元之间的相似之处。

Sep, 2023

LLMs 在高阶心理理论任务上达到成年人类表现

研究分析了大型语言模型 (LLMs) 是否已经具有更高阶的心智理论 (ToM) 社会心智能力，通过引入多阶心智问答手写测试集并将其用于与新收集的成年人基准进行比较，我们发现 GPT-4 和 Flan-PaLM 在总体上达到了成年水平或接近成年水平的 ToM 任务表现，并且 GPT-4 在第六阶推理上超过了成年人的表现。研究结果表明，模型规模和微调在实现 ToM 能力方面存在相互作用，而表现最佳的 LLMs 已经发展出了一种普适的 ToM 能力。鉴于高阶 ToM 在广泛的人类合作和竞争行为中发挥的角色，这些发现对于面向用户的 LLM 应用具有重要意义。

May, 2024

观点属于我，也属于你：使用共同基础理论对心智进行基准测试

通过自然发生的口语对话构建首个基于一般认知论 (ToM) 的数据集 Common-ToM，研究表明语言模型在表现 ToM 时存在困难，但通过融合简单明确的信念表示可以提高语言模型在 Common-ToM 上的性能。

Mar, 2024