Oct, 2023

模型适应的去偏算法

TL;DR提出了一种用于检测和减轻语言模型中性别偏见的新方法,通过因果分析确定了问题模型组件,发现中上部前馈层最容易传递偏见,根据分析结果通过线性投影来改进模型,该方法(DAMA)显著减少了偏见,并保持了模型在下游任务上的性能。