Nov, 2022

去偏差化是否必然导致模型性能下降

TL;DR本文提出了一个理论框架,解释了语言模型性别偏差的三个候选机制,发现大部分现有的去偏见方法会导致性能下降,但提出了一种不会降低模型性能的方法,即因果检测微调方法。通过数值实验证明,该方法能够在部分缓解性别偏差的同时避免性能下降。