Feb, 2024

信息流路径:大规模自动解释语言模型

TL;DR我们通过构建节点和边的图表来自动揭示模型中的信息流;与现有的工作流相比,我们通过与其他的方法相反,利用属性来实现这一目标,并能够在任何预测中提取信息流路线,不仅限于特定类型的预测;此外,我们实验了 Llama 2,并表明了某些注意力头的整体重要性,比如前一个标记头和子词合并头;最后,我们展示了某些模型组件可以在领域(如编码或多语言文本)上进行专门化。