关键词direct logit attribution
搜索结果 - 2
- 总结事实:LLMs 中事实回忆的叠加机制
基于 Transformer 的大型语言模型(LLMs)如何存储和检索知识?我们关注了这个任务的最基本形式 —— 事实召回,其中模型被要求在形如 “事实:斗兽场位于国家” 的提示中明确地呈现存储的事实。我们发现,基于事实召回的机制比之前认为 - 直接逻辑归因的对抗示例:gelu-4l 中的内存管理
我们提供了一个 4 层变压器的内存管理的具体证据,具体而言,我们确定了清理行为,即模型组件在前向传递期间持续删除先前组件的输出。我们的研究结果表明,可解释性技术 Direct Logit Attribution 提供了误导性的结果,我们展示