Mar, 2024

预训练语言模型中减轻性别偏见的投影方法

TL;DR研究了将最简单的投影去偏方法应用于 BERT 内部表示时,对于缓解 BERT 在内部表示中的性别偏见和精调任务中的观察到的偏见至关重要,结果发现投影方法在内部偏差和下游偏差缓解方面都有效果,但两者并不一定相关。