Apr, 2024
公正对待:通过成对扰动对语言模型中的偏见进行稳健评估
FairPair: A Robust Evaluation of Biases in Language Models through Paired Perturbations
Jane Dwivedi-Yu, Raaz Dwivedi, Timo Schick
TL;DRFairPair 是一个评估框架,用于评估在普通使用中发生的差异对待;通过对具有相同人口群体背景的对照组进行分析,考虑了生成过程本身的变异性,表明更倾向于将家庭和爱好与女性相关联。