Jun, 2022

通过因果中介分析研究去偏置方法带来的影响

TL;DR本文以因果中介分析的方法来研究消除语言模型偏见的内部机制对下游任务毒性检测的影响,结果表明需要测试不同的偏见度量方法和关注模型中特定组件的行为变化,如语言模型的前两层和注意力头。