ACLJan, 2021

量化预训练语言模型中的性别偏见和倾斜

TL;DR本文提出了两个直观的度量标准、skew 和 stereotype,来量化和分析上下文语言模型应对 WinoBias 代词消解任务时存在的性别偏见,并通过两种方法调查了如何减少偏见。第一个方法是在线方法,在牺牲刻板印象的代价下有效地消除偏斜。第二个方法是借鉴了 ELMo 的先前工作,并使用增强的性别平衡数据集微调 BERT,结果与无增强微调的 BERT 相比,降低了 skew 和 stereotype。但是,我们发现现有的性别偏见基准未完全探测到专业偏见,因为代词消解可能会被来自其他性别偏见表现的交叉相关性所混淆。