Feb, 2024

总结事实:LLMs 中事实回忆的叠加机制

TL;DR基于 Transformer 的大型语言模型(LLMs)如何存储和检索知识?我们关注了这个任务的最基本形式 —— 事实召回,其中模型被要求在形如 “事实:斗兽场位于国家” 的提示中明确地呈现存储的事实。我们发现,基于事实召回的机制比之前认为的更为复杂。它包括几个不同、独立且具有不同质量的机制,这些机制通过加法组合,在正确的属性上进行构造性干扰。我们将这种通用现象称为加性模式:模型通过对多个独立的贡献求和来计算。每个机制的贡献本身可能不足够,但求和的结果在正确答案上产生了构造性干扰。此外,我们扩展了直接逻辑回归归因法的方法,将注意力头的输出归因给单个源标记。我们使用这种技术来解包我们所称的 ' 混合头部 '—— 它们本身是来自不同源标记的两个独立的加性更新的一对。