Mar, 2024

利用原型表示消除社会偏见而不包含人口统计信息

TL;DRDAFair 是一种用于减轻语言模型中社会偏见的新方法,通过预定义的典型人口统计文本,并在微调过程中加入正则化项来纠正模型的表示中的偏见,从而在两个任务和两个模型上实证结果显示了我们方法的有效性。此外,即使在有限的人口统计注释数据下,我们的方法也优于常见的去偏方法。