Jan, 2024

评估掩码语言模型中的社会偏见的鲁棒评估度量

TL;DR我们通过将伪对数似然(PLL)得分集表示为高斯分布,并使用 KL 散度和 JS 散度构建评估措施,以评估刻板化和反刻板化 PLL 得分的分布,发现我们提出的措施在公开可用的数据集 StereoSet(SS)和 CrowS-Pairs(CP)上显示出显著的鲁棒性和可解释性。