Apr, 2024

公正对待:通过成对扰动对语言模型中的偏见进行稳健评估

TL;DRFairPair 是一个评估框架,用于评估在普通使用中发生的差异对待;通过对具有相同人口群体背景的对照组进行分析,考虑了生成过程本身的变异性,表明更倾向于将家庭和爱好与女性相关联。