MMToM-QA: 多模态心智理论问答

Jan, 2024

MMToM-QA: Multimodal Theory of Mind Question Answering

Chuanyang Jin, Yutong Wu, Jing Cao, Jiannan Xiang, Yen-Ling Kuo...

TL;DR为了发展具有人类级社交智能的机器，我们引入了一种多模式心智问答（MMToM-QA）基准，它综合评估机器的心智理解能力，并基于多模式数据和关于家庭环境中人物活动的不同类别的单模式数据。为了实现多模式心智能力，提出了一种新方法 BIP-ALM（基于语言模型的贝叶斯逆规划加速），它从多模式数据中提取统一的表示，并利用语言模型进行可扩展的贝叶斯逆规划。与人类表现、BIP-ALM 和包括 GPT-4 在内的先进模型进行了系统比较，实验表明大型语言模型和大型多模式模型仍然缺乏强大的心智理解能力，而 BIP-ALM 则通过利用基于模型的心智推理和语言模型的能力展现了有希望的结果。

Abstract

theory of mind (ToM), the ability to understand people's minds, is an essential ingredient for developing machines with human-level social intelligence. Recent machine learning models, particularly large language

theory of mind machine learning models multimodal data bip-alm tom capacity

发现论文，激发创造

通过心灵之眼理论：用多模态视频和大型语言模型阅读思维

大型多模态模型能否拥有类似人类的情感和社交推理能力，以及这是如何实现的？近期研究已经发现了大型语言模型的浮现理论推理能力。通过解决各种基于文本的涉及认知理论（如人类信念、欲望和意图）的任务，语言模型能够推理人们的心理状态。然而，人类的推理能力通常基于动态场景和时间。因此，我们认为视频是一个检验时空认知推理能力的新媒介。我们通过使用视频和文本开发了一个基于多模态语言模型的推理管道，实现了对涉及社交和情感推理内容的视频的显性推理。同时，我们还通过检索回答推理问题所需的关键帧来启用显性认知推理，揭示了多模态语言模型如何推理认知理论。

Jun, 2024

ToMBench：大型语言模型中的心智理论基准测试

大语言模型（LLMs）在理解和归因自我和他人的心智状态方面尚未达到人类水平，因此我们引入 ToMBench 评估框架以实现对 LLMs 的 ToM 能力的高效和有效评估。

Feb, 2024

机器心智理论综述

本文综述了近年来关于机器 Theory of Mind（ToM）在信仰、欲望和意图方面的进展，概括了不同任务和数据集的发展，并比较了具有优势、局限性和适用条件的模型。我们认为，提出标准的评估标准和数据集，特别是覆盖了 ToM 多个方面的大规模数据集，是解决这种困难的方法之一。

Mar, 2023

针对语言模型（缺乏）心智理论的插接式多角色信念追踪器

本文提出了 SymbolicToM，即一种通过显式符号表示来跟踪阅读理解任务中多个字符的信念状态、其对他字符信念状态估计及更高级别的推理的方法，该方法在 ToMi 基准测试中表现出了显著的理解能力提升。

Jun, 2023

机器心智理论

通过设计 Theory of Mind （ToM）神经网络，该网络利用元学习从行为观察中建模遇到的智能体，从而学习模拟其他智能体在其世界中的行为，它是发展多智能体 AI 系统、构建机器人与人类交互技术和推进可解释 AI 进步的一个重要步骤。

Feb, 2018

OpenToM: 评估大型语言模型理解他人心理思维能力的全面基准

机器学习中的神经心智理论 (N-ToM) 是理解和跟踪他人心理状态的关键，本研究构建了一个新的基准 OpenToM，通过长而清晰的叙述、具有明确人格特征的角色以及挑战人工智能模型对心理和心理世界中角色心理状态建模能力的设计提出了一些问题，揭示了最先进的模型在物理世界中对心理状态的建模方面表现出色，但在心理世界中的心理状态跟踪方面表现不足。

Feb, 2024

具有心智理论的计算语言习得

本研究为了衡量 Theory of Mind（意念）在语言学习中的影响，在现有 ToM 的版本上，建立了能够融合 ToM 的语言学习代理，并通过实验，证实高度融合 ToM listener 组件的训练，可以在图像指称游戏环境中获得更好的性能，这表明在计算语言习得中进一步结合 ToM 以及儿童语言习得研究的潜在效用。

Mar, 2023

神经心智理论？关于大型语言模型社交智能的限制

本文从经验和理论角度出发，探究了现代 NLP 系统中的社交智能和心理理论的问题，并使用 SocialIQa 和 ToMi 任务检验了 GPT-3 的社交智能和 Theory of Mind 的能力，结果表明 GPT-3 在这些任务中存在严重的不足，进而考虑从人为中心的 NLP 方法入手可能会更加有效。

Oct, 2022

人机交互中大型语言模型对心理理论的能力：一种幻象？

通过研究大型语言模型在人机交互中的应用，本文探讨了理解机器生成行为的能力，特别是在承认他人心理状态方面，发现大型语言模型缺乏对无关紧要或微小变化的不变性。

Jan, 2024

LLM 理论的心智与协调性：机遇与风险

大型语言模型在人机交互和人工智能方面的能力使他们能够以自然语言进行对话和推理，现在人们对于这些模型是否具备心智理论（ToM）的能力，即推理他人心理和情感状态的核心能力，产生了越来越多的兴趣。本研究通过对人类心智理论的角色和影响的文献进行探讨，识别出 LLM ToM 在个体和集体层面与人类互动中的关键领域，并指出了每个领域中所涉及的机会与风险。在个体层面上，本文考虑了 LLM ToM 在目标规范、对话适应、共情和拟人化方面的表现方式。在群体层面上，本文考虑了 LLM ToM 如何促进集体调适、合作或竞争以及道德判断。该研究阐述了一系列潜在的影响，并提出了未来研究的最急需关注的领域。

May, 2024