Oct, 2023

在去偏语言表征模型中不伤害受保护群体

TL;DR使用实际数据训练的语言表示模型可能会捕捉和加剧不希望的偏见,导致对不同人口群体的不公平待遇。我们探讨了四种去偏见技术在实际文本分类任务上的应用,并表明减少偏见是以降低所有人口群体性能为代价的,包括那些去偏见技术旨在保护的群体。我们主张去偏见技术应在确保对被保护群体没有伤害的约束条件下具有良好的下游性能。