Oct, 2023

直接逻辑归因的对抗示例:gelu-4l中的内存管理

TL;DR我们提供了一个4层变压器的内存管理的具体证据,具体而言,我们确定了清理行为,即模型组件在前向传递期间持续删除先前组件的输出。我们的研究结果表明,可解释性技术Direct Logit Attribution提供了误导性的结果,我们展示了具体示例证明该技术不考虑清理行为是不准确的。