通过离散世界模型的心智理论的复杂性概念
大语言模型(LLMs)在理解和归因自我和他人的心智状态方面尚未达到人类水平,因此我们引入 ToMBench 评估框架以实现对 LLMs 的 ToM 能力的高效和有效评估。
Feb, 2024
机器学习中的神经心智理论 (N-ToM) 是理解和跟踪他人心理状态的关键,本研究构建了一个新的基准 OpenToM,通过长而清晰的叙述、具有明确人格特征的角色以及挑战人工智能模型对心理和心理世界中角色心理状态建模能力的设计提出了一些问题,揭示了最先进的模型在物理世界中对心理状态的建模方面表现出色,但在心理世界中的心理状态跟踪方面表现不足。
Feb, 2024
人的心智理论 (TOM) 能力是人类推理自己及他人心智状态的能力,在智力发展、语言理解及认知过程中起着关键作用。本研究引入了 HI-TOM,较高阶的心智理论基准。实验结果表明,基于大型语言模型 (LLM) 的性能在较高阶心智理论任务上出现下降,展示了现有 LLM 的局限性。我们对 LLM 不同失败案例进行了详细分析,并就我们的发现对自然语言处理未来的影响进行了讨论。
Oct, 2023
本研究通过创建 ToMChallenges 数据集以综合评估 Sally-Anne 和 Smarties 测试来测试大型语言模型对理解他人的心理状态的能力,包括现实性、信念、一阶信念和二阶信念,并通过创建适用于每个任务类别的独特提示来为不同任务适应我们的数据,旨在验证模型的 ToM。我们评估了两个 GPT-3.5 模型,text-davinci-003 和 gpt-3.5-turbo-0301,结果表明,在 ToM 任务中保持一致的表现仍然是一个挑战。
May, 2023
我们通过测试 11 种基于基础模型和指令调整模型的能力来探讨大型语言模型(LLMs)在理解意图和信念(即心智理论)等认知能力方面的程度。我们发现,GPT 系列的调整模型表现优于其他模型和儿童。基础模型大多无法解决心智理论任务,即使有专门的提示。我们认为,语言和心智理论的互相关联可能解释了指令调整模型的增加:奖励考虑到对话者和语境的合作性交流。最后,我们呼吁在 LLMs 中对心智理论保持一个细致的观点。
Oct, 2023
大型语言模型(LLMs)在理论心理学的出现上引起了极大的兴趣和争议。我们通过心理学研究将机器的心理模拟(machine ToM)分为七个类别,并提出了一种更全面的评估方法,通过将 LLMs 放置在具体环境中进行评估,来避免捷径和数据泄露的风险。希望这篇观点论文能促进未来研究将机器 ToM 与 LLMs 结合起来,并为研究人员更好地定位自己的工作在 ToM 领域中提供一个直观的方式。
Oct, 2023
本文通过运用动态认知逻辑以生成更为复杂的问题,以及新颖的语言表述技术来表达这些问题,研究表明 70M 到 6B 和 350M 到 174B 的语言模型规模并不总是比随机投票更好,并且 GPT-4 表现出了更优秀的认知推理能力,但仍有待提高。
May, 2023
本研究为了衡量 Theory of Mind(意念)在语言学习中的影响,在现有 ToM 的版本上,建立了能够融合 ToM 的语言学习代理,并通过实验,证实高度融合 ToM listener 组件的训练,可以在图像指称游戏环境中获得更好的性能,这表明在计算语言习得中进一步结合 ToM 以及儿童语言习得研究的潜在效用。
Mar, 2023
本研究通过创建一个新的社交推理基准,即 BigToM,来评估大型语言模型的社交推理能力,发现 GPT4 具有反映人类推理模式的理论思维能力,但不够可靠,而其他 LLM 则表现较差。
Jun, 2023
本文提出了 SymbolicToM,即一种通过显式符号表示来跟踪阅读理解任务中多个字符的信念状态、其对他字符信念状态估计及更高级别的推理的方法,该方法在 ToMi 基准测试中表现出了显著的理解能力提升。
Jun, 2023