语言模型中事实性回忆机制的表征
基于 Transformer 的大型语言模型(LLMs)如何存储和检索知识?我们关注了这个任务的最基本形式 —— 事实召回,其中模型被要求在形如 “事实:斗兽场位于国家” 的提示中明确地呈现存储的事实。我们发现,基于事实召回的机制比之前认为的更为复杂。它包括几个不同、独立且具有不同质量的机制,这些机制通过加法组合,在正确的属性上进行构造性干扰。我们将这种通用现象称为加性模式:模型通过对多个独立的贡献求和来计算。每个机制的贡献本身可能不足够,但求和的结果在正确答案上产生了构造性干扰。此外,我们扩展了直接逻辑回归归因法的方法,将注意力头的输出归因给单个源标记。我们使用这种技术来解包我们所称的 ' 混合头部 '—— 它们本身是来自不同源标记的两个独立的加性更新的一对。
Feb, 2024
本文详细探讨了基于 Transformer 的语言模型在事实回忆任务中所使用的机制,包括零样本场景中通过任务特定的注意力头提取主题实体并传递给后续 MLP 以回忆所需答案,以及少样本场景中相同的机制。此外,我们还观察到在模型的最后一层存在普遍的抑制正确预测的反过度自信机制,并通过利用我们的解释来改善事实回忆性能。
Mar, 2024
通过调查五种预训练语言模型在特殊条件下进行的逆向推理,发现这种逆向推理主要受到基于单词关联的影响,只有 GPT-3 能够展现对语言细微差别的敏感性。
May, 2023
本文提出了一种源于心理学中人类记忆分类的对抗性记忆学习方法,进行神经语言模型的训练数据筛选,以减少其对训练数据中的敏感信息的记忆,并探究其训练样本中的对抗性记忆,从而提供一种可用于测试数据及其生成的文本来源推定的直接证据。
Dec, 2021
本文通过使用反事实条件句,利用心理语言学实验和更大规模的数据集,对比了多种流行的预训练语言模型中的反事实预测,并发现大多数模型主要受简单的词汇线索驱动。当控制世界知识和词汇线索效应时,只有 GPT-3 在反事实细微差别的语言基础知识上显示出敏感性。
Dec, 2022
中文摘要:本研究介绍了 Fakepedia,一个反事实数据集,用于评估大型语言模型在参数化知识与上下文信息相冲突时的接地能力。我们测试了各种大型语言模型在 Fakepedia 上的表现,并发现 GPT-4-turbo 更偏好参数化知识,而 Mistral-7B 则最稳定地选择了接地答案。此外,我们对大型语言模型进行因果中介分析,结果表明仅凭计算图的检查即可预测 92.8% 准确度的接地情况,尤其是变压器中的少数 MLP 可以预测非接地行为。我们的结果与现有关于事实回忆机制的发现相结合,提供了大型语言模型中接地和事实回忆机制的相互作用的连贯叙述。
Dec, 2023
我们提出了机制竞争的概念,通过分析大语言模型的内部运作机制的相互作用,揭示了机制之间的竞争是如何发生和影响最终预测结果的。我们使用逻辑值检查和注意力修改两种解释性方法,在模型组件中找到了机制和它们之间的竞争痕迹,并发现了可以有效控制某些机制强度的注意力位置。
Feb, 2024
本文探讨了大型语言模型在知识获取任务中通过设计启示策略,特别是意见为基础的提示和反事实演示,有效提高了上下文的真实性,并在三个数据集上进行实验,结果表明在上下文中的忠实度有了显著提高。
Mar, 2023
本论文研究了在大规模无监督文本语料库上预训练的语言模型,结合信息检索系统以纯无监督方式来增强预训练语言模型,并成功提高了其零样本缺失式问答系统的性能,尤其通过使用不同的分隔符处理查询和上下文,让 BERT 能够更好的判断是否匹配上下文从而增加准确性和鲁棒性。
May, 2020
本研究探讨了语言模型(LM)如何从训练数据中记忆大量的事实知识,同时提出了事实追溯的问题。为了解决该问题,比较了基于梯度和嵌入的两种不同的训练数据指向(TDA)方法,并发现仍有很大的改进空间。
May, 2022