ChatGPT 是否具备心理理论?
通过对多个语言模型进行人类 “心灵理论” 测试,研究发现自 2020 年发布的 GPT-3 版本以来语言模型在解决伪信念问题上的表现已经逐渐逼近人类的表现水平
Feb, 2023
通过仿真理论的视角引导框架 SimToM,在 Theory of Mind (ToM) 的背景下,改进了大型语言模型(LLMs)的推理能力,无需额外训练和大量提示微调,从而实现了对 ToM 能力的显著提升。
Nov, 2023
本文从经验和理论角度出发,探究了现代 NLP 系统中的社交智能和心理理论的问题,并使用 SocialIQa 和 ToMi 任务检验了 GPT-3 的社交智能和 Theory of Mind 的能力,结果表明 GPT-3 在这些任务中存在严重的不足,进而考虑从人为中心的 NLP 方法入手可能会更加有效。
Oct, 2022
本研究为了衡量 Theory of Mind(意念)在语言学习中的影响,在现有 ToM 的版本上,建立了能够融合 ToM 的语言学习代理,并通过实验,证实高度融合 ToM listener 组件的训练,可以在图像指称游戏环境中获得更好的性能,这表明在计算语言习得中进一步结合 ToM 以及儿童语言习得研究的潜在效用。
Mar, 2023
大语言模型(LLMs)在理解和归因自我和他人的心智状态方面尚未达到人类水平,因此我们引入 ToMBench 评估框架以实现对 LLMs 的 ToM 能力的高效和有效评估。
Feb, 2024
本文介绍了一种使用心理意识理论建立社交智能代理以有效沟通与合作完成任务的方法,通过观察、推断和接收信息,这些代理可以推断他人的心理状态和意图并决定何时、与谁分享自己的意图,最终在两个典型目标导向的多代理任务中展示了优异的性能。
Oct, 2021
本文提出了 SymbolicToM,即一种通过显式符号表示来跟踪阅读理解任务中多个字符的信念状态、其对他字符信念状态估计及更高级别的推理的方法,该方法在 ToMi 基准测试中表现出了显著的理解能力提升。
Jun, 2023
我们通过在 6 个任务上进行广泛的评估,发现虽然 LLM 表现出某些神经理论社交认知能力,但这种行为远非稳健。我们进一步研究影响 N-ToM 任务表现的因素,并发现 LLM 难以应对对抗性例子,这表明它们依赖于浅层启发式算法,而非稳健的 ToM 能力。我们警告不要从个别例子、有限的基准测试和使用人设计的心理测试来评估模型。
May, 2023
为了发展具有人类级社交智能的机器,我们引入了一种多模式心智问答(MMToM-QA)基准,它综合评估机器的心智理解能力,并基于多模式数据和关于家庭环境中人物活动的不同类别的单模式数据。为了实现多模式心智能力,提出了一种新方法 BIP-ALM(基于语言模型的贝叶斯逆规划加速),它从多模式数据中提取统一的表示,并利用语言模型进行可扩展的贝叶斯逆规划。与人类表现、BIP-ALM 和包括 GPT-4 在内的先进模型进行了系统比较,实验表明大型语言模型和大型多模式模型仍然缺乏强大的心智理解能力,而 BIP-ALM 则通过利用基于模型的心智推理和语言模型的能力展现了有希望的结果。
Jan, 2024
通过设计 Theory of Mind (ToM)神经网络,该网络利用元学习从行为观察中建模遇到的智能体,从而学习模拟其他智能体在其世界中的行为,它是发展多智能体 AI 系统、构建机器人与人类交互技术和推进可解释 AI 进步的一个重要步骤。
Feb, 2018