语言模型中事实性回忆机制的表征

Oct, 2023

语言模型中事实性回忆机制的表征

Characterizing Mechanisms for Factual Recall in Language Models

Qinan Yu, Jack Merullo, Ellie Pavlick

TL;DR利用头部归因方法控制模型行为，将模型表现局部化，并提供了一种概念验证方法，展示如何在运行时动态地控制模型行为。

Abstract

language models (LMs) often must integrate facts they memorized in pretraining with new information that appears in a given context. These two sources can disagree, causing competition within the model, and it is unclear how an LM will resolve the conflict. On a dataset that queries fo

language models lm behavior counterfactual prefix head attribution model behavior

发现论文，激发创造

总结事实：LLMs 中事实回忆的叠加机制

基于 Transformer 的大型语言模型（LLMs）如何存储和检索知识？我们关注了这个任务的最基本形式 —— 事实召回，其中模型被要求在形如 “事实：斗兽场位于国家” 的提示中明确地呈现存储的事实。我们发现，基于事实召回的机制比之前认为的更为复杂。它包括几个不同、独立且具有不同质量的机制，这些机制通过加法组合，在正确的属性上进行构造性干扰。我们将这种通用现象称为加性模式：模型通过对多个独立的贡献求和来计算。每个机制的贡献本身可能不足够，但求和的结果在正确答案上产生了构造性干扰。此外，我们扩展了直接逻辑回归归因法的方法，将注意力头的输出归因给单个源标记。我们使用这种技术来解包我们所称的 ' 混合头部 '—— 它们本身是来自不同源标记的两个独立的加性更新的一对。

Feb, 2024

基于 Transformer 的语言模型中实际回忆的关键机制解析

本文详细探讨了基于 Transformer 的语言模型在事实回忆任务中所使用的机制，包括零样本场景中通过任务特定的注意力头提取主题实体并传递给后续 MLP 以回忆所需答案，以及少样本场景中相同的机制。此外，我们还观察到在模型的最后一层存在普遍的抑制正确预测的反过度自信机制，并通过利用我们的解释来改善事实回忆性能。

Mar, 2024

反事实推理：测试语言模型对假设场景的理解

通过调查五种预训练语言模型在特殊条件下进行的逆向推理，发现这种逆向推理主要受到基于单词关联的影响，只有 GPT-3 能够展现对语言细微差别的敏感性。

May, 2023

神经语言模型中的反事实记忆

本文提出了一种源于心理学中人类记忆分类的对抗性记忆学习方法，进行神经语言模型的训练数据筛选，以减少其对训练数据中的敏感信息的记忆，并探究其训练样本中的对抗性记忆，从而提供一种可用于测试数据及其生成的文本来源推定的直接证据。

Dec, 2021

反事实推理：语言模型在因果理解中是否需要世界知识？

本文通过使用反事实条件句，利用心理语言学实验和更大规模的数据集，对比了多种流行的预训练语言模型中的反事实预测，并发现大多数模型主要受简单的词汇线索驱动。当控制世界知识和词汇线索效应时，只有 GPT-3 在反事实细微差别的语言基础知识上显示出敏感性。

Dec, 2022

定位和检测语言模型基础的瑕疵：使用 Fakepedia

中文摘要：本研究介绍了 Fakepedia，一个反事实数据集，用于评估大型语言模型在参数化知识与上下文信息相冲突时的接地能力。我们测试了各种大型语言模型在 Fakepedia 上的表现，并发现 GPT-4-turbo 更偏好参数化知识，而 Mistral-7B 则最稳定地选择了接地答案。此外，我们对大型语言模型进行因果中介分析，结果表明仅凭计算图的检查即可预测 92.8% 准确度的接地情况，尤其是变压器中的少数 MLP 可以预测非接地行为。我们的结果与现有关于事实回忆机制的发现相结合，提供了大型语言模型中接地和事实回忆机制的相互作用的连贯叙述。

Dec, 2023

机制的竞争：追踪语言模型处理事实和反事实的方式

我们提出了机制竞争的概念，通过分析大语言模型的内部运作机制的相互作用，揭示了机制之间的竞争是如何发生和影响最终预测结果的。我们使用逻辑值检查和注意力修改两种解释性方法，在模型组件中找到了机制和它们之间的竞争痕迹，并发现了可以有效控制某些机制强度的注意力位置。

Feb, 2024

大型语言模型的上下文忠实提示

本文探讨了大型语言模型在知识获取任务中通过设计启示策略，特别是意见为基础的提示和反事实演示，有效提高了上下文的真实性，并在三个数据集上进行实验，结果表明在上下文中的忠实度有了显著提高。

Mar, 2023

上下文对语言模型事实预测的影响

本论文研究了在大规模无监督文本语料库上预训练的语言模型，结合信息检索系统以纯无监督方式来增强预训练语言模型，并成功提高了其零样本缺失式问答系统的性能，尤其通过使用不同的分隔符处理查询和上下文，让 BERT 能够更好的判断是否匹配上下文从而增加准确性和鲁棒性。

May, 2020

追溯语言模型中的事实知识来源于训练数据

本研究探讨了语言模型（LM）如何从训练数据中记忆大量的事实知识，同时提出了事实追溯的问题。为了解决该问题，比较了基于梯度和嵌入的两种不同的训练数据指向（TDA）方法，并发现仍有很大的改进空间。

May, 2022