用手术刀剖析 Ullman 变体：为何 LLMs 在对错误信念任务的微小改动中失败？

Jun, 2024

用手术刀剖析 Ullman 变体：为何 LLMs 在对错误信念任务的微小改动中失败？

Dissecting the Ullman Variations with a SCALPEL: Why do LLMs fail at Trivial Alterations to the False Belief Task?

Zhiqiang Pi, Annapurna Vadaparty, Benjamin K. Bergen, Cameron R. Jones

TL;DR通过引入 SCALPEL 技术，我们发现使得明显的常规推理明确的修改（如透明物体的观察意味着识别其内容）能保持大型语言模型的性能，暗示大型语言模型在修改的心智任务上的失败可能是由于缺乏更一般的常识推理，而不是对心理状态的表示失败。我们认为 SCALPEL 可以对解释大型语言模型在其他情况下的成功和失败有所帮助。

Abstract

Recent empirical results have sparked a debate about whether or not Large Language Models (LLMs) are capable of theory of mind (ToM). While some have found LLMs to be successful on ToM evaluations such as the false beli

large language models theory of mind false belief task scalpel commonsense reasoning

发现论文，激发创造

大型语言模型无法处理心智理论任务中的微小改变

本文主要讨论机器智能领域中关于直觉心理与人类智能之间关系的研究，着重研究认知心理学中的模拟推理问题，并探讨可能的未来发展方向。

Feb, 2023

LLMs 在高阶心理理论任务上达到成年人类表现

研究分析了大型语言模型 (LLMs) 是否已经具有更高阶的心智理论 (ToM) 社会心智能力，通过引入多阶心智问答手写测试集并将其用于与新收集的成年人基准进行比较，我们发现 GPT-4 和 Flan-PaLM 在总体上达到了成年水平或接近成年水平的 ToM 任务表现，并且 GPT-4 在第六阶推理上超过了成年人的表现。研究结果表明，模型规模和微调在实现 ToM 能力方面存在相互作用，而表现最佳的 LLMs 已经发展出了一种普适的 ToM 能力。鉴于高阶 ToM 在广泛的人类合作和竞争行为中发挥的角色，这些发现对于面向用户的 LLM 应用具有重要意义。

May, 2024

当 LLM 遇到狡猾问题：一个针对大型语言模型的谬论理解基准测试

我们在这篇论文中通过提出一个包含狡猾问题的 FaLlacy Understanding Benchmark (FLUB) 来挑战大型语言模型的推理和理解能力，该 Benchmark 包含了从真实互联网环境中收集的棘手、幽默和误导性问题，我们设计了三个难度递增的任务，用于评估 LLM 的谬误理解能力。基于 FLUB，我们研究了多个代表性和先进的 LLM 的性能，反映出 FLUB 具有挑战性且值得进行更多的未来研究。通过我们的广泛实验证明和详细分析，我们获得了有趣的发现和有价值的见解。我们希望我们的 Benchmark 能够鼓励社区改进 LLM 的理解谬误的能力。

Feb, 2024

大型语言模型中的心智理论：考察 11 种当前最先进模型与 7-10 岁儿童在高难度测试上的表现

我们通过测试 11 种基于基础模型和指令调整模型的能力来探讨大型语言模型（LLMs）在理解意图和信念（即心智理论）等认知能力方面的程度。我们发现，GPT 系列的调整模型表现优于其他模型和儿童。基础模型大多无法解决心智理论任务，即使有专门的提示。我们认为，语言和心智理论的互相关联可能解释了指令调整模型的增加：奖励考虑到对话者和语境的合作性交流。最后，我们呼吁在 LLMs 中对心智理论保持一个细致的观点。

Oct, 2023

利用语言模型理解语言模型中的社交推理

本研究通过创建一个新的社交推理基准，即 BigToM，来评估大型语言模型的社交推理能力，发现 GPT4 具有反映人类推理模式的理论思维能力，但不够可靠，而其他 LLM 则表现较差。

Jun, 2023

语言模型表达自我和他人的信念

通过神经激活语言模型，线性解码不同代理人的信念状态，发现其内部包含了自我和他人信念的表征，这些表征对社会推理过程具有关键作用，同时在不同因果推理模式的多种社会推理任务中表现出潜在的泛化能力。

Feb, 2024

ToMBench：大型语言模型中的心智理论基准测试

大语言模型（LLMs）在理解和归因自我和他人的心智状态方面尚未达到人类水平，因此我们引入 ToMBench 评估框架以实现对 LLMs 的 ToM 能力的高效和有效评估。

Feb, 2024

探索和解决涉及否定的 LMs 中的幻觉问题

研究了大型语言模型中幻觉问题中否定的影响，发现在涉及否定的任务中，开源最先进的大型语言模型在虚构上存在严重的缺点，提出了多种减轻这些幻觉的策略并展示了它们的影响。

Jun, 2024

人机交互中大型语言模型对心理理论的能力：一种幻象？

通过研究大型语言模型在人机交互中的应用，本文探讨了理解机器生成行为的能力，特别是在承认他人心理状态方面，发现大型语言模型缺乏对无关紧要或微小变化的不变性。

Jan, 2024

LLMs 错误的简单问题

我们引入了一个综合的语言基准测试来评估大型语言模型在逻辑推理、空间智能和语言理解等领域的局限性。通过一系列简单的问题，它揭示了知名模型在执行人类轻松处理的任务时存在的显著限制。它还强调了提示工程的潜力以缓解一些错误，并强调了更好的训练方法的必要性。我们的研究结果强调了将大型语言模型与人类推理和常识连接起来的重要性，并强调了人在企业应用中的必要性。我们希望这项工作为未来的研究提供了增强新模型的实用性和可靠性的途径。

May, 2024