FANToM：机器心智理论在互动中的压力测试基准

EMNLPOct, 2023

FANToM：机器心智理论在互动中的压力测试基准

FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions

Hyunwoo Kim, Melanie Sclar, Xuhui Zhou, Ronan Le Bras, Gunhee Kim...

TL;DRFANToM 是一个基准测试，旨在通过问答来在信息非对称的对话环境中对心智理论进行压力测试。我们利用心理学的重要理论要求和评估大型语言模型时的必要实证考虑制定了多种类型的问题，以确定 LLM 中虚假或错误的心智能力。我们证明 FANToM 对于最先进的 LLM 来说具有挑战性，即使是具有思维连贯性或微调的模型也表现明显较差于人类。

Abstract

theory of mind (ToM) evaluations currently focus on testing models using passive narratives that inherently lack interactivity. We introduce fantom, a new benchmark designed to stress-test ToM within information-

theory of mind fantom information-asymmetric conversational contexts question answering illusion or false sense of tom capabilities in llms

发现论文，激发创造

NegotiationToM: 一种用于测试机器思考他人心态的谈判基准

使用 NegotiationToM 基准测试表明，尽管使用了思维链式方法（CoT method），目前最先进的大型语言模型在人类情况下的表现明显较差。

Apr, 2024

ToMBench：大型语言模型中的心智理论基准测试

大语言模型（LLMs）在理解和归因自我和他人的心智状态方面尚未达到人类水平，因此我们引入 ToMBench 评估框架以实现对 LLMs 的 ToM 能力的高效和有效评估。

Feb, 2024

OpenToM: 评估大型语言模型理解他人心理思维能力的全面基准

机器学习中的神经心智理论 (N-ToM) 是理解和跟踪他人心理状态的关键，本研究构建了一个新的基准 OpenToM，通过长而清晰的叙述、具有明确人格特征的角色以及挑战人工智能模型对心理和心理世界中角色心理状态建模能力的设计提出了一些问题，揭示了最先进的模型在物理世界中对心理状态的建模方面表现出色，但在心理世界中的心理状态跟踪方面表现不足。

Feb, 2024

Clever Hans 或神经心理理论？在大型语言模型中进行社交推理的应力测试

我们通过在 6 个任务上进行广泛的评估，发现虽然 LLM 表现出某些神经理论社交认知能力，但这种行为远非稳健。我们进一步研究影响 N-ToM 任务表现的因素，并发现 LLM 难以应对对抗性例子，这表明它们依赖于浅层启发式算法，而非稳健的 ToM 能力。我们警告不要从个别例子、有限的基准测试和使用人设计的心理测试来评估模型。

May, 2023

大型语言模型与具备心智理论的智能体相距多远？

人类可以从观察中推断他人的心理状态，然后从实用角度出发对这些推断进行干预。针对大型语言模型（LLMs）的新的评估范式 ——Thinking for Doing（T4D）要求模型将对他人心理状态的推断与社交情境中的行动联系起来。我们提出了一种零样本提示框架 ——Foresee and Reflect（FaR），该框架能够鼓励 LLMs 预测未来的挑战并合理推断潜在行动，从而提高 GPT-4 在 T4D 上的性能。

Oct, 2023

HI-TOM：评估大型语言模型中高阶心智推理的基准

人的心智理论 (TOM) 能力是人类推理自己及他人心智状态的能力，在智力发展、语言理解及认知过程中起着关键作用。本研究引入了 HI-TOM，较高阶的心智理论基准。实验结果表明，基于大型语言模型 (LLM) 的性能在较高阶心智理论任务上出现下降，展示了现有 LLM 的局限性。我们对 LLM 不同失败案例进行了详细分析，并就我们的发现对自然语言处理未来的影响进行了讨论。

Oct, 2023

再三思考：透视改善大型语言模型的心理理论能力

通过仿真理论的视角引导框架 SimToM，在 Theory of Mind (ToM) 的背景下，改进了大型语言模型（LLMs）的推理能力，无需额外训练和大量提示微调，从而实现了对 ToM 能力的显著提升。

Nov, 2023

利用语言模型理解语言模型中的社交推理

本研究通过创建一个新的社交推理基准，即 BigToM，来评估大型语言模型的社交推理能力，发现 GPT4 具有反映人类推理模式的理论思维能力，但不够可靠，而其他 LLM 则表现较差。

Jun, 2023

通过离散世界模型的心智理论的复杂性概念

量化并衡量 ToM 任务的复杂度，并提出一种改进模型性能的技术 Discrete World Models (DWM)。

Jun, 2024

观点属于我，也属于你：使用共同基础理论对心智进行基准测试

通过自然发生的口语对话构建首个基于一般认知论 (ToM) 的数据集 Common-ToM，研究表明语言模型在表现 ToM 时存在困难，但通过融合简单明确的信念表示可以提高语言模型在 Common-ToM 上的性能。

Mar, 2024