Jun, 2024

发现潜在空间中的偏倚:一种无监督的去偏方法

TL;DR我们的方法SteerFair通过找到模型表示空间中的偏见方向,并在推理过程中将激活值从偏见方向上移开,从而显著减少了提示变化对模型性能的影响,超过了100个标签的监督基准,平均准确率提高了10.86%,分数提高了12.95,并与500个标签的基准性能相匹配。