利用语言模型理解语言模型中的社交推理

Jun, 2023

利用语言模型理解语言模型中的社交推理

Understanding Social Reasoning in Language Models with Language Models

Kanishk Gandhi, Jan-Philipp Fränken, Tobias Gerstenberg, Noah D. Goodman

TL;DR本研究通过创建一个新的社交推理基准，即 BigToM，来评估大型语言模型的社交推理能力，发现 GPT4 具有反映人类推理模式的理论思维能力，但不够可靠，而其他 LLM 则表现较差。

Abstract

As large language models (LLMs) become increasingly integrated into our everyday lives, understanding their ability to comprehend human mental states becomes critical for ensuring effective interactions. However, despite the recent attempts to assess the Theory-of-Mind (ToM) reasoning

large language models theory-of-mind reasoning benchmark social reasoning gpt4

发现论文，激发创造

LLM 是否具备类人推理能力？评估 LLM 对开放性回答的心智理论

利用 Reddit 的 ChangeMyView 平台的帖子，该研究评估了大型语言模型在处理心理理论推理时的能力，并通过提供人类意图和情感来增强模型表现，揭示了模型在开放式问题中与人类心理推理相比存在的差距。

Jun, 2024

LLM 理论的心智与协调性：机遇与风险

大型语言模型在人机交互和人工智能方面的能力使他们能够以自然语言进行对话和推理，现在人们对于这些模型是否具备心智理论（ToM）的能力，即推理他人心理和情感状态的核心能力，产生了越来越多的兴趣。本研究通过对人类心智理论的角色和影响的文献进行探讨，识别出 LLM ToM 在个体和集体层面与人类互动中的关键领域，并指出了每个领域中所涉及的机会与风险。在个体层面上，本文考虑了 LLM ToM 在目标规范、对话适应、共情和拟人化方面的表现方式。在群体层面上，本文考虑了 LLM ToM 如何促进集体调适、合作或竞争以及道德判断。该研究阐述了一系列潜在的影响，并提出了未来研究的最急需关注的领域。

May, 2024

ToMBench：大型语言模型中的心智理论基准测试

大语言模型（LLMs）在理解和归因自我和他人的心智状态方面尚未达到人类水平，因此我们引入 ToMBench 评估框架以实现对 LLMs 的 ToM 能力的高效和有效评估。

Feb, 2024

通过心灵之眼理论：用多模态视频和大型语言模型阅读思维

大型多模态模型能否拥有类似人类的情感和社交推理能力，以及这是如何实现的？近期研究已经发现了大型语言模型的浮现理论推理能力。通过解决各种基于文本的涉及认知理论（如人类信念、欲望和意图）的任务，语言模型能够推理人们的心理状态。然而，人类的推理能力通常基于动态场景和时间。因此，我们认为视频是一个检验时空认知推理能力的新媒介。我们通过使用视频和文本开发了一个基于多模态语言模型的推理管道，实现了对涉及社交和情感推理内容的视频的显性推理。同时，我们还通过检索回答推理问题所需的关键帧来启用显性认知推理，揭示了多模态语言模型如何推理认知理论。

Jun, 2024

人机交互中大型语言模型对心理理论的能力：一种幻象？

通过研究大型语言模型在人机交互中的应用，本文探讨了理解机器生成行为的能力，特别是在承认他人心理状态方面，发现大型语言模型缺乏对无关紧要或微小变化的不变性。

Jan, 2024

语言模型表达自我和他人的信念

通过神经激活语言模型，线性解码不同代理人的信念状态，发现其内部包含了自我和他人信念的表征，这些表征对社会推理过程具有关键作用，同时在不同因果推理模式的多种社会推理任务中表现出潜在的泛化能力。

Feb, 2024

LLMs 在高阶心理理论任务上达到成年人类表现

研究分析了大型语言模型 (LLMs) 是否已经具有更高阶的心智理论 (ToM) 社会心智能力，通过引入多阶心智问答手写测试集并将其用于与新收集的成年人基准进行比较，我们发现 GPT-4 和 Flan-PaLM 在总体上达到了成年水平或接近成年水平的 ToM 任务表现，并且 GPT-4 在第六阶推理上超过了成年人的表现。研究结果表明，模型规模和微调在实现 ToM 能力方面存在相互作用，而表现最佳的 LLMs 已经发展出了一种普适的 ToM 能力。鉴于高阶 ToM 在广泛的人类合作和竞争行为中发挥的角色，这些发现对于面向用户的 LLM 应用具有重要意义。

May, 2024

神经心智理论？关于大型语言模型社交智能的限制

本文从经验和理论角度出发，探究了现代 NLP 系统中的社交智能和心理理论的问题，并使用 SocialIQa 和 ToMi 任务检验了 GPT-3 的社交智能和 Theory of Mind 的能力，结果表明 GPT-3 在这些任务中存在严重的不足，进而考虑从人为中心的 NLP 方法入手可能会更加有效。

Oct, 2022

Clever Hans 或神经心理理论？在大型语言模型中进行社交推理的应力测试

我们通过在 6 个任务上进行广泛的评估，发现虽然 LLM 表现出某些神经理论社交认知能力，但这种行为远非稳健。我们进一步研究影响 N-ToM 任务表现的因素，并发现 LLM 难以应对对抗性例子，这表明它们依赖于浅层启发式算法，而非稳健的 ToM 能力。我们警告不要从个别例子、有限的基准测试和使用人设计的心理测试来评估模型。

May, 2023

大型语言模型中的心智理论：考察 11 种当前最先进模型与 7-10 岁儿童在高难度测试上的表现

我们通过测试 11 种基于基础模型和指令调整模型的能力来探讨大型语言模型（LLMs）在理解意图和信念（即心智理论）等认知能力方面的程度。我们发现，GPT 系列的调整模型表现优于其他模型和儿童。基础模型大多无法解决心智理论任务，即使有专门的提示。我们认为，语言和心智理论的互相关联可能解释了指令调整模型的增加：奖励考虑到对话者和语境的合作性交流。最后，我们呼吁在 LLMs 中对心智理论保持一个细致的观点。

Oct, 2023