MindGames: 利用动态认识模态逻辑针对大型语言模型的心灵游戏

May, 2023

MindGames: 利用动态认识模态逻辑针对大型语言模型的心灵游戏

MindGames: Targeting Theory of Mind in Large Language Models with Dynamic Epistemic Modal Logic

Damien Sileo, Antoine Lernould

TL;DR本文通过运用动态认知逻辑以生成更为复杂的问题，以及新颖的语言表述技术来表达这些问题，研究表明 70M 到 6B 和 350M 到 174B 的语言模型规模并不总是比随机投票更好，并且 GPT-4 表现出了更优秀的认知推理能力，但仍有待提高。

Abstract

theory of mind (ToM) is a critical component of intelligence, yet accurately measuring it continues to be a subject of debate. Prior research has attempted to apply human ToM assessments to →

theory of mind intelligence natural language processing epistemic logic language model

发现论文，激发创造

大型语言模型中的心智理论：考察 11 种当前最先进模型与 7-10 岁儿童在高难度测试上的表现

我们通过测试 11 种基于基础模型和指令调整模型的能力来探讨大型语言模型（LLMs）在理解意图和信念（即心智理论）等认知能力方面的程度。我们发现，GPT 系列的调整模型表现优于其他模型和儿童。基础模型大多无法解决心智理论任务，即使有专门的提示。我们认为，语言和心智理论的互相关联可能解释了指令调整模型的增加：奖励考虑到对话者和语境的合作性交流。最后，我们呼吁在 LLMs 中对心智理论保持一个细致的观点。

Oct, 2023

针对语言模型（缺乏）心智理论的插接式多角色信念追踪器

本文提出了 SymbolicToM，即一种通过显式符号表示来跟踪阅读理解任务中多个字符的信念状态、其对他字符信念状态估计及更高级别的推理的方法，该方法在 ToMi 基准测试中表现出了显著的理解能力提升。

Jun, 2023

ToMBench：大型语言模型中的心智理论基准测试

大语言模型（LLMs）在理解和归因自我和他人的心智状态方面尚未达到人类水平，因此我们引入 ToMBench 评估框架以实现对 LLMs 的 ToM 能力的高效和有效评估。

Feb, 2024

利用语言模型理解语言模型中的社交推理

本研究通过创建一个新的社交推理基准，即 BigToM，来评估大型语言模型的社交推理能力，发现 GPT4 具有反映人类推理模式的理论思维能力，但不够可靠，而其他 LLM 则表现较差。

Jun, 2023

OpenToM: 评估大型语言模型理解他人心理思维能力的全面基准

机器学习中的神经心智理论 (N-ToM) 是理解和跟踪他人心理状态的关键，本研究构建了一个新的基准 OpenToM，通过长而清晰的叙述、具有明确人格特征的角色以及挑战人工智能模型对心理和心理世界中角色心理状态建模能力的设计提出了一些问题，揭示了最先进的模型在物理世界中对心理状态的建模方面表现出色，但在心理世界中的心理状态跟踪方面表现不足。

Feb, 2024

语言模型中的心智理论可能已自发涌现

通过对多个语言模型进行人类 “心灵理论” 测试，研究发现自 2020 年发布的 GPT-3 版本以来语言模型在解决伪信念问题上的表现已经逐渐逼近人类的表现水平

Feb, 2023

ToMChallenges：探索心理理论的原则导向数据集和多元评估任务

本研究通过创建 ToMChallenges 数据集以综合评估 Sally-Anne 和 Smarties 测试来测试大型语言模型对理解他人的心理状态的能力，包括现实性、信念、一阶信念和二阶信念，并通过创建适用于每个任务类别的独特提示来为不同任务适应我们的数据，旨在验证模型的 ToM。我们评估了两个 GPT-3.5 模型，text-davinci-003 和 gpt-3.5-turbo-0301，结果表明，在 ToM 任务中保持一致的表现仍然是一个挑战。

May, 2023

通过离散世界模型的心智理论的复杂性概念

量化并衡量 ToM 任务的复杂度，并提出一种改进模型性能的技术 Discrete World Models (DWM)。

Jun, 2024

通过心灵之眼理论：用多模态视频和大型语言模型阅读思维

大型多模态模型能否拥有类似人类的情感和社交推理能力，以及这是如何实现的？近期研究已经发现了大型语言模型的浮现理论推理能力。通过解决各种基于文本的涉及认知理论（如人类信念、欲望和意图）的任务，语言模型能够推理人们的心理状态。然而，人类的推理能力通常基于动态场景和时间。因此，我们认为视频是一个检验时空认知推理能力的新媒介。我们通过使用视频和文本开发了一个基于多模态语言模型的推理管道，实现了对涉及社交和情感推理内容的视频的显性推理。同时，我们还通过检索回答推理问题所需的关键帧来启用显性认知推理，揭示了多模态语言模型如何推理认知理论。

Jun, 2024

具有心智理论的计算语言习得

本研究为了衡量 Theory of Mind（意念）在语言学习中的影响，在现有 ToM 的版本上，建立了能够融合 ToM 的语言学习代理，并通过实验，证实高度融合 ToM listener 组件的训练，可以在图像指称游戏环境中获得更好的性能，这表明在计算语言习得中进一步结合 ToM 以及儿童语言习得研究的潜在效用。

Mar, 2023