语言模型是否有信念？检测、更新和可视化模型信念的方法

Nov, 2021

语言模型是否有信念？检测、更新和可视化模型信念的方法

Do Language Models Have Beliefs? Methods for Detecting, Updating, and Visualizing Model Beliefs

Peter Hase, Mona Diab, Asli Celikyilmaz, Xian Li, Zornitsa Kozareva...

TL;DR探讨语言模型是否对世界有信念，介绍检测语言模型是否拥有信念、强化信念更新的方法，其中重点介绍基于学习优化器或超网络的方法，并提出了评估信念更新方法效果的新度量，提出了一种称为 SLAG 的训练目标，并引入了信念图，提供了一种新形式的接口呈现模型信念的内部依赖关系。实验表明，模型具有有限的信念属性，但更新方法可以修正不正确的模型信念，并大大提高其一致性。学习优化器能在比过去工作更困难的环境中胜过现成的优化器。

Abstract

Do language models have beliefs about the world? Dennett (1995) famously argues that even thermostats have beliefs, on the view that a bel

language models beliefs belief-updating learned optimizers belief graph

发现论文，激发创造

语言模型仍缺乏测谎器：探究经验和概念障碍

我们考虑大型语言模型是否具有信念，以及如果它们确实具有信念，我们如何衡量它们。在评估两种现有方法失败后，我们认为即使 LLMs 具有信念，在概念上这些方法也不太可能成功。因此，还没有 LLMs 的测谎仪。我们总结了研究结果，并提出了一些未来工作的具体路径。

Jun, 2023

语言模型表达自我和他人的信念

通过神经激活语言模型，线性解码不同代理人的信念状态，发现其内部包含了自我和他人信念的表征，这些表征对社会推理过程具有关键作用，同时在不同因果推理模式的多种社会推理任务中表现出潜在的泛化能力。

Feb, 2024

BeliefBank: 为预训练语言模型添加记忆以实现系统化的信念概念

本文介绍了一种嵌入预训练语言模型于一个更广泛系统中的方法，该系统包括一个不断演化的信仰符号记忆库，并描述了两种机制以提高系统中的信仰一致性，从而在控制实验环境中改善了模型的回答的准确性和一致性。

Sep, 2021

信念修订：大型语言模型推理的适应性

从文本推理的能力对于现实世界的自然语言处理应用至关重要。现实场景通常涉及不完整或不断演化的数据，在这种情况下，个体会相应地更新其信念和理解。然而，大多数现有评估假设语言模型在处理一致信息时运行，我们引入了 Belief-R，这是一个新的数据集，旨在测试语言模型在面对新证据时的信念修订能力。受人类抑制先前推理的启发，该任务在新提出的 delta reasoning（＄ΔR＄）框架内评估语言模型。Belief-R 包含一系列前提，旨在模拟额外信息可能需要语言模型绘制的先前结论的情况。我们对约 30 个不同提示策略的语言模型进行评估，发现语言模型通常在适当修订其信念以响应新信息方面存在困难。此外，擅长更新的模型在没有必要更新的情况下通常表现不佳，凸显了一种关键权衡。这些洞见强调了提高语言模型对变化信息的适应能力的重要性，这是朝着更可靠的人工智能系统迈出的一步。

Jun, 2024

贝叶斯心智理论中关于信念的语言基础

通过对 Bayesian 心智模型的建模，该论文解释了人类相信陈述的语义，解释了人类对他人目标和信念的归属，并证明了心智理论对信念语义的重要性。

Feb, 2024

公平信念评估 —— 评估语言模型中的有害信念

通过 FairBelief 分析方法，我们揭示了英语语言模型普遍具有关于特定性别的伤害性信念，不同的训练过程、数据集、模型规模和架构会引发各种程度的伤害性信念。

Feb, 2024

LLM 中信念表示的标准

大语言模型 (Large Language Models) 内部如何表达其对世界的信念是一个缺乏统一理论基础的研究领域，本文通过提出适当性条件，填补了这一空白。研究人员通过结合哲学和机器学习方法，建立了准确度、连贯性、一致性和应用等四个标准，以促进对大语言模型中信念表达的全面理解。

May, 2024

语言模型的认识论：语言模型是否拥有整体性知识？

研究以认识论整体主义的观点调查语言模型中的固有知识，通过构建科学推理数据集并进行推理、修正和论证生成三个任务评估语言模型的认识论。结果显示，在问题解释阶段，语言模型可以解释情境而避免修正核心知识，然而在其他任务中，语言模型则未能区分核心知识和周边知识，显示对认识论整体主义原则的不完全一致性。

Mar, 2024

模型编辑的基本问题：如何在大型语言模型中进行合理的信念修正工作？

该研究采用半合成数据集的方法，对模型编辑问题进行实证研究，旨在探索语言模型的知识控制方式，进一步提出一个形式化测试平台，批判现有模型编辑问题的标准公式，并证明其离期望的认识标准还有一定差距。

Jun, 2024

语言模型中的真值判断：信念方向是上下文敏感的

我们通过对大型语言模型的隐空间进行研究发现，先前的关于模型的 ' 知识 ' 或' 信念 ' 的研究方法可以基于其隐空间中的方向来构建探测器，而我们的实验结果表明这些探测器的预测可能与前面的（相关）句子有条件关联，并且这种信念方向可以影响推理过程中的真相判断和上下文信息的整合。

Apr, 2024