评估问答中的心智理论

Aug, 2018

Evaluating Theory of Mind in Question Answering

Aida Nematzadeh, Kaylee Burns, Erin Grant, Alison Gopnik, Thomas L. Griffiths

TL;DR本研究提出了一个新的数据集，旨在评估问答模型在理解信仰和状态一致性方面的推理能力，评估多个带有记忆增强的神经模型，发现这些模型在需要跟踪世界不一致状态的任务中均失败，而且当试验中引入随机句子时，模型的准确性明显下降。

Abstract

We propose a new dataset for evaluating question answering models with respect to their capacity to reason about beliefs. Our tasks are in

question answering models beliefs neural models memory augmentation

发现论文，激发创造

ToMChallenges：探索心理理论的原则导向数据集和多元评估任务

本研究通过创建 ToMChallenges 数据集以综合评估 Sally-Anne 和 Smarties 测试来测试大型语言模型对理解他人的心理状态的能力，包括现实性、信念、一阶信念和二阶信念，并通过创建适用于每个任务类别的独特提示来为不同任务适应我们的数据，旨在验证模型的 ToM。我们评估了两个 GPT-3.5 模型，text-davinci-003 和 gpt-3.5-turbo-0301，结果表明，在 ToM 任务中保持一致的表现仍然是一个挑战。

May, 2023

记忆增强的心智理论网络

该研究采用新颖的神经记忆机制和分层注意力相结合的方法设计了一个理论心智模型，ToMMY，使其能够快速准确地推断他人的意图、信念与将来的行为，进一步实验证明神经记忆机制可在高难度的虚假信念任务中提高心理理解的准确性。

Jan, 2023

机器心智理论综述

本文综述了近年来关于机器 Theory of Mind（ToM）在信仰、欲望和意图方面的进展，概括了不同任务和数据集的发展，并比较了具有优势、局限性和适用条件的模型。我们认为，提出标准的评估标准和数据集，特别是覆盖了 ToM 多个方面的大规模数据集，是解决这种困难的方法之一。

Mar, 2023

大型语言模型中的心智理论：考察 11 种当前最先进模型与 7-10 岁儿童在高难度测试上的表现

我们通过测试 11 种基于基础模型和指令调整模型的能力来探讨大型语言模型（LLMs）在理解意图和信念（即心智理论）等认知能力方面的程度。我们发现，GPT 系列的调整模型表现优于其他模型和儿童。基础模型大多无法解决心智理论任务，即使有专门的提示。我们认为，语言和心智理论的互相关联可能解释了指令调整模型的增加：奖励考虑到对话者和语境的合作性交流。最后，我们呼吁在 LLMs 中对心智理论保持一个细致的观点。

Oct, 2023

深度学习方法在心智理论方面的挑战

本文介绍了深度学习方法在推理他人心理状态方面的潜力、现有进展和问题，并强调当前研究的局限性和提出的解决方案。研究者应探索理论思维在复杂开放式环境中的研究，并使用人类的先前工作对深度学习系统进行成功的激励。在进行深度学习的理论思维方面的研究时，研究的重点和贡献应该是打开网络的表示。因此，我们建议研究者使用 AI 可解释性领域的工具，以研究不同网络组件和理论思维的方面之间的关系。

Mar, 2022

语言模型表达自我和他人的信念

通过神经激活语言模型，线性解码不同代理人的信念状态，发现其内部包含了自我和他人信念的表征，这些表征对社会推理过程具有关键作用，同时在不同因果推理模式的多种社会推理任务中表现出潜在的泛化能力。

Feb, 2024

语言模型中的心智理论可能已自发涌现

通过对多个语言模型进行人类 “心灵理论” 测试，研究发现自 2020 年发布的 GPT-3 版本以来语言模型在解决伪信念问题上的表现已经逐渐逼近人类的表现水平

Feb, 2023

具有心智理论的计算语言习得

本研究为了衡量 Theory of Mind（意念）在语言学习中的影响，在现有 ToM 的版本上，建立了能够融合 ToM 的语言学习代理，并通过实验，证实高度融合 ToM listener 组件的训练，可以在图像指称游戏环境中获得更好的性能，这表明在计算语言习得中进一步结合 ToM 以及儿童语言习得研究的潜在效用。

Mar, 2023

针对语言模型（缺乏）心智理论的插接式多角色信念追踪器

本文提出了 SymbolicToM，即一种通过显式符号表示来跟踪阅读理解任务中多个字符的信念状态、其对他字符信念状态估计及更高级别的推理的方法，该方法在 ToMi 基准测试中表现出了显著的理解能力提升。

Jun, 2023

人工智能心智理论：两个人一起跳探索

探讨了为了使人工智能和人类更有效地团队合作，人类需要了解人工智能的思维方式（称为 ToAIM），并在可视化问题回答视觉问题领域内进行实篇研究，发现虽然解释性 AI 受到了广泛关注，但访问模型内部状态对于预测其行为并不有帮助。

Apr, 2017