Oct, 2023

预训练 Transformer 中自注意力的因果解释

TL;DR我们提出了 Transformer 神经网络结构中自注意力的因果解释。我们将自注意力解释为一种机制,用于估计给定输入符号(标记)序列的结构方程模型。结构方程模型可以被解释为输入序列特定上下文下的输入符号的因果结构。与潜在混淆变量相比,该解释仍然有效。根据此解释,我们通过计算最深层注意力中相应表示之间的偏相关来估计输入符号之间的条件独立关系。这使得能够使用现有的基于约束的算法学习输入序列上的因果结构。从这个意义上讲,现有的预训练 Transformer 可被用于零样本因果发现。我们通过为两个任务(自然语言处理的情感分类和推荐)中的 Transformer 结果提供因果解释来演示这种方法。