Apr, 2020

解读神经自然语言处理的因果中介分析:性别偏见案例

TL;DR通过因果中介分析理论,我们提出了一种方法来解释神经模型语言处理中行为的成因,并使用此方法研究了预先训练的 Transformer 语言模型中性别偏差的机制。通过对个体神经元和注意力节点的分析,我们发现性别偏差效应分布稀疏,集中在网络的小部分,并且能被不同的中介子部件放大或抑制,同时也可以通过中介子的直接和间接影响进行分解。