Apr, 2020
解读神经自然语言处理的因果中介分析:性别偏见案例
Causal Mediation Analysis for Interpreting Neural NLP: The Case of Gender Bias
Jesse Vig, Sebastian Gehrmann, Yonatan Belinkov, Sharon Qian, Daniel Nevo...
TL;DR通过因果中介分析理论,我们提出了一种方法来解释神经模型语言处理中行为的成因,并使用此方法研究了预先训练的 Transformer 语言模型中性别偏差的机制。通过对个体神经元和注意力节点的分析,我们发现性别偏差效应分布稀疏,集中在网络的小部分,并且能被不同的中介子部件放大或抑制,同时也可以通过中介子的直接和间接影响进行分解。