Apr, 2024

LM透明工具:用于分析Transformer语言模型的交互工具

TL;DR我们提出了LM透明工具(LM-TT),这是一种用于分析基于Transformer的语言模型内部机制的开源交互式工具包。与以往专注于决策过程的独立部分的工具不同,我们的框架旨在使整个预测过程透明化,并允许从顶层表示到模型非常细粒度的部分追溯模型行为。我们的工具可以显示输入到输出信息流的重要部分,可以将模型块所做的任何更改归因于个别注意力头和前馈神经元,还可以解释这些头部或神经元的功能。我们相信,我们的工具能够在研究环境和实际应用中极大地支持可解释性研究领域,因为在分析组件众多的大型模型时,了解应检查哪些组件十分关键。