Feb, 2024

通过预测质量的代理方法测量掩盖语言模型中的社会偏见

TL;DR通过使用迭代的蒙板实验测量变压器模型的预测质量,并评估多层语言模型对于劣势群体和优势群体的偏好,我们比较了两个基准数据集上的偏见估计结果,并发现在考虑的多层语言模型中具有相对较高的宗教和残疾偏见,而在一个数据集中相对较低的性别偏见。我们的测量方法在与人类注释者的一致性方面表现优于其他方法。我们通过评估在蒙版语言建模目标下重新训练多层语言模型后引入的社会偏见进行扩展,并发现我们提出的测量方法比其他方法更准确地估计了变压器之间具有偏见的句子的相对偏好。