- 用手术刀剖析 Ullman 变体:为何 LLMs 在对错误信念任务的微小改动中失败?
通过引入 SCALPEL 技术,我们发现使得明显的常规推理明确的修改(如透明物体的观察意味着识别其内容)能保持大型语言模型的性能,暗示大型语言模型在修改的心智任务上的失败可能是由于缺乏更一般的常识推理,而不是对心理状态的表示失败。我们认为 - 通过离散世界模型的心智理论的复杂性概念
量化并衡量 ToM 任务的复杂度,并提出一种改进模型性能的技术 Discrete World Models (DWM)。
- 大型语言模型中理解心智的零、有限和无限信念历史
在这篇论文中,我们提出了一种新的概念、分类法和框架 —— 使用零、有限和无限信仰历史进行理论心智推理,并开发了一个名为 'Pick the Right Stuff' 的多回合文本游戏作为一个基准。我们评估了六个大型语言模型在这个游戏中的表现 - LLMs 在高阶心理理论任务上达到成年人类表现
研究分析了大型语言模型 (LLMs) 是否已经具有更高阶的心智理论 (ToM) 社会心智能力,通过引入多阶心智问答手写测试集并将其用于与新收集的成年人基准进行比较,我们发现 GPT-4 和 Flan-PaLM 在总体上达到了成年水平或接近成 - 培育多智能体合作的认知洞察与稳定联盟匹配
我们提出了一种新的匹配联盟机制,利用不同 ToM 水平的智能体的优势,明确考虑信念一致性和专门能力,在形成联盟时寻找最大程度促进合作行为并确保长期可行性的稳定联盟,从而将 ToM 应用于设计多智能体系统,提供更复杂和类似于人类的协调策略,促 - LLM 理论的心智与协调性:机遇与风险
大型语言模型在人机交互和人工智能方面的能力使他们能够以自然语言进行对话和推理,现在人们对于这些模型是否具备心智理论(ToM)的能力,即推理他人心理和情感状态的核心能力,产生了越来越多的兴趣。本研究通过对人类心智理论的角色和影响的文献进行探讨 - ToM-LM:在大型语言模型中将心智理论推理委托给外部符号执行器
我们的研究通过引入符号执行器和微调技术,改进了大型语言模型在心智理论推理中的表现,并通过对比实验证明了我们的方法对于推理能力的显著提升。
- 硅心智论
研究了人工智能在多个环境中具备与人类相似的心智推理能力,包括判断他人的意图、偏好等,并揭示了当其与克隆体进行互动时的现象和差异。
- 观点属于我,也属于你:使用共同基础理论对心智进行基准测试
通过自然发生的口语对话构建首个基于一般认知论 (ToM) 的数据集 Common-ToM,研究表明语言模型在表现 ToM 时存在困难,但通过融合简单明确的信念表示可以提高语言模型在 Common-ToM 上的性能。
- 语言模型表达自我和他人的信念
通过神经激活语言模型,线性解码不同代理人的信念状态,发现其内部包含了自我和他人信念的表征,这些表征对社会推理过程具有关键作用,同时在不同因果推理模式的多种社会推理任务中表现出潜在的泛化能力。
- ToMBench:大型语言模型中的心智理论基准测试
大语言模型(LLMs)在理解和归因自我和他人的心智状态方面尚未达到人类水平,因此我们引入 ToMBench 评估框架以实现对 LLMs 的 ToM 能力的高效和有效评估。
- 人工智能的自发心理理论
现有的人工智能(AI)的心灵理论(ToM)方法过多地强调受到提示或刺激的 ToM,这可能限制我们共同发展人工社会智能(ASI)。通过对计算机科学、认知科学及相关学科的研究,我们将受到提示的 ToM 与我们所称的自发的 ToM 进行对比,即在 - BDIQA:一个探索通过心智理论进行认知推理的视频问答新数据集
本文介绍了 BDIQA,这是第一个探索 ToM 理论在 VideoQA 模型中认知推理能力的基准测试集,旨在填补当前 VideoQA 数据集与任务中机器 ToM 方面的不足,并通过实验得出了提高认知推理能力的两项指导原则。
- 共情与成为例外的权利:LLM 可以做和不能做的事情
大语言模型(LLMs)的性能提升引发了研究者提出人工智能(AI)中心理理论(ToM)的出现。LLMs 能够赋予信念、欲望、意图和情感,并在准确性方面不断提高。我们探讨了 LLMs 无法产生共情是否妨碍了它们尊重个体作为例外的权利,即从个体性 - MMToM-QA: 多模态心智理论问答
为了发展具有人类级社交智能的机器,我们引入了一种多模式心智问答(MMToM-QA)基准,它综合评估机器的心智理解能力,并基于多模式数据和关于家庭环境中人物活动的不同类别的单模式数据。为了实现多模式心智能力,提出了一种新方法 BIP-ALM( - 人机交互中大型语言模型对心理理论的能力:一种幻象?
通过研究大型语言模型在人机交互中的应用,本文探讨了理解机器生成行为的能力,特别是在承认他人心理状态方面,发现大型语言模型缺乏对无关紧要或微小变化的不变性。
- 运用心灵理论进行语用语义交流的推理
提出了一种实用的语义通信框架,通过理论心智(ToM)模拟接收者的神经网络,使用动态两级反馈机制实现有效的面向目标的信息共享,优化信道编码过程,提供语义反馈级别并减少比特量,从而实现高效的通信。
- 再三思考:透视改善大型语言模型的心理理论能力
通过仿真理论的视角引导框架 SimToM,在 Theory of Mind (ToM) 的背景下,改进了大型语言模型(LLMs)的推理能力,无需额外训练和大量提示微调,从而实现了对 ToM 能力的显著提升。
- 基于心智理论的信任感知机器人策略
本文研究了多智能体环境中,人类与机器人协作对抗他人时,基于心智化理论的机器人政策对于人机信任的重要性和有效性,并通过采用机器人心智理论模型来缓解机器人采用逆心理策略的问题以保持信任。
- 大型语言模型中的心智理论:考察 11 种当前最先进模型与 7-10 岁儿童在高难度测试上的表现
我们通过测试 11 种基于基础模型和指令调整模型的能力来探讨大型语言模型(LLMs)在理解意图和信念(即心智理论)等认知能力方面的程度。我们发现,GPT 系列的调整模型表现优于其他模型和儿童。基础模型大多无法解决心智理论任务,即使有专门的提