人机交互中大型语言模型对心理理论的能力:一种幻象?
通过神经激活语言模型,线性解码不同代理人的信念状态,发现其内部包含了自我和他人信念的表征,这些表征对社会推理过程具有关键作用,同时在不同因果推理模式的多种社会推理任务中表现出潜在的泛化能力。
Feb, 2024
评估了基于大型语言模型的多智能体协作文本游戏中的理论推理任务,并与多智能体强化学习和基于计划的基准进行比较。研究发现基于大型语言模型的智能体表现出紧密合作行为和高级理论推理能力,但也存在在管理长期视野环境和任务状态幻觉方面的规划优化限制。通过利用显式信念状态表示来减轻这些问题,改善了基于大型语言模型的智能体的任务表现和理论推理准确性。
Oct, 2023
本研究通过创建一个新的社交推理基准,即 BigToM,来评估大型语言模型的社交推理能力,发现 GPT4 具有反映人类推理模式的理论思维能力,但不够可靠,而其他 LLM 则表现较差。
Jun, 2023
大型语言模型在人机交互和人工智能方面的能力使他们能够以自然语言进行对话和推理,现在人们对于这些模型是否具备心智理论(ToM)的能力,即推理他人心理和情感状态的核心能力,产生了越来越多的兴趣。本研究通过对人类心智理论的角色和影响的文献进行探讨,识别出 LLM ToM 在个体和集体层面与人类互动中的关键领域,并指出了每个领域中所涉及的机会与风险。在个体层面上,本文考虑了 LLM ToM 在目标规范、对话适应、共情和拟人化方面的表现方式。在群体层面上,本文考虑了 LLM ToM 如何促进集体调适、合作或竞争以及道德判断。该研究阐述了一系列潜在的影响,并提出了未来研究的最急需关注的领域。
May, 2024
我们通过测试 11 种基于基础模型和指令调整模型的能力来探讨大型语言模型(LLMs)在理解意图和信念(即心智理论)等认知能力方面的程度。我们发现,GPT 系列的调整模型表现优于其他模型和儿童。基础模型大多无法解决心智理论任务,即使有专门的提示。我们认为,语言和心智理论的互相关联可能解释了指令调整模型的增加:奖励考虑到对话者和语境的合作性交流。最后,我们呼吁在 LLMs 中对心智理论保持一个细致的观点。
Oct, 2023
大语言模型(LLMs)在理解和归因自我和他人的心智状态方面尚未达到人类水平,因此我们引入 ToMBench 评估框架以实现对 LLMs 的 ToM 能力的高效和有效评估。
Feb, 2024
通过仿真理论的视角引导框架 SimToM,在 Theory of Mind (ToM) 的背景下,改进了大型语言模型(LLMs)的推理能力,无需额外训练和大量提示微调,从而实现了对 ToM 能力的显著提升。
Nov, 2023
利用 Reddit 的 ChangeMyView 平台的帖子,该研究评估了大型语言模型在处理心理理论推理时的能力,并通过提供人类意图和情感来增强模型表现,揭示了模型在开放式问题中与人类心理推理相比存在的差距。
Jun, 2024
大型语言模型展现出与人类理论心智联系紧密的特征,与人脑大脑网络中的神经元相似,通过类似方法检验了嵌入在语言模型中的人工神经元对他人信念的代表能力,揭示了模型与人脑神经元之间的相似之处。
Sep, 2023
研究分析了大型语言模型 (LLMs) 是否已经具有更高阶的心智理论 (ToM) 社会心智能力,通过引入多阶心智问答手写测试集并将其用于与新收集的成年人基准进行比较,我们发现 GPT-4 和 Flan-PaLM 在总体上达到了成年水平或接近成年水平的 ToM 任务表现,并且 GPT-4 在第六阶推理上超过了成年人的表现。研究结果表明,模型规模和微调在实现 ToM 能力方面存在相互作用,而表现最佳的 LLMs 已经发展出了一种普适的 ToM 能力。鉴于高阶 ToM 在广泛的人类合作和竞争行为中发挥的角色,这些发现对于面向用户的 LLM 应用具有重要意义。
May, 2024