ACLOct, 2021
预训练语言模型去偏差技术有效性的实证研究
An Empirical Survey of the Effectiveness of Debiasing Techniques for Pre-trained Language Models
Nicholas Meade, Elinor Poole-Dayan, Siva Reddy
TL;DR本文调查了五种最近提出的消除算法:CDA、Dropout、Iterative Nullspace Projection、Self-Debias 和 SentenceDebias 的有效性。实验结果显示,Self-Debias 是最有效的去偏置技术。但是现有去偏置技术在减轻非性别偏差方面表现不一致,同时算法会降低模型的语言建模能力,难以确定去偏置的效果。