构建面向掩蔽语言模型社会偏见的整体度量
我们通过将伪对数似然(PLL)得分集表示为高斯分布,并使用 KL 散度和 JS 散度构建评估措施,以评估刻板化和反刻板化 PLL 得分的分布,发现我们提出的措施在公开可用的数据集 StereoSet(SS)和 CrowS-Pairs(CP)上显示出显著的鲁棒性和可解释性。
Jan, 2024
通过使用迭代的蒙板实验测量变压器模型的预测质量,并评估多层语言模型对于劣势群体和优势群体的偏好,我们比较了两个基准数据集上的偏见估计结果,并发现在考虑的多层语言模型中具有相对较高的宗教和残疾偏见,而在一个数据集中相对较低的性别偏见。我们的测量方法在与人类注释者的一致性方面表现优于其他方法。我们通过评估在蒙版语言建模目标下重新训练多层语言模型后引入的社会偏见进行扩展,并发现我们提出的测量方法比其他方法更准确地估计了变压器之间具有偏见的句子的相对偏好。
Feb, 2024
通过提出多语种偏差评估模型(MBE)和手动创建的数据集对八种语言的语言模型进行评估,证实了所有这些语言中均存在针对性别相关的偏差,同时在日语和俄语中的手动创建的数据集与 MBE 评分存在显著相关性。
May, 2022
本文提出了一种名为 AUL 并基于 attention weights 的 Alle Unmasked Likelihood 方法,用于检测 Masked Language Models 中的社会偏见,并发现以前的评估指标存在一系列问题,例如不考虑掩码的预测精度和测试集中的高频词掩码等问题。
Apr, 2021
本研究旨在通过检测自然语言处理中的倾向性,确定人工智能模型的偏见和风险,并揭示这些模型对社会中处于弱势地位、受到歧视的群体的影响。结果表明,预训练的 MLMs(Masked Language Models)和他们的下游情感分类器存在着对社会中处于弱势地位、受到歧视的群体的偏见。
Jun, 2023
本研究探讨了遮盖语言模型的任务非特定内在社会偏见和任务特定外在社会偏见评估指标之间的关系,并发现两种评估指标之间存在着很弱的相关性。 此外,我们发现使用不同方法去除偏见的 MLM 在下游任务的精调期间仍会重新学习社会偏见。 我们发现训练实例及其分配的标签中的社会偏见是内在和外在偏见评估测量之间差异的原因。 总之,我们的研究结果强调了现有 MLM 偏见评估措施的局限性,并令人担忧地提出了使用这些措施在下游应用中部署 MLM 的问题。
Oct, 2022
分析表明,尽管社会偏见存在于所有 MLMs 中,但大多数类型的社会偏见在时间上相对稳定(有几个例外)。进一步分析影响 MLMs 社会偏见的机制,我们发现在训练语料库中,某些人口群体(如男性)一直相对于其他人口群体(如女性)更受偏好。
Jun, 2024
社会偏见在大型语言模型中是由各种人口统计学特征的目标的社会感知的积累所塑造的。为了全面理解大型语言模型中的这种社会偏见,必须考虑到各种身份认同之间多元观点下的社会感知。本文旨在研究各种视角的社会感知如何影响大型语言模型中社会偏见的发展。为此,我们提出了一种直观量化这些社会感知的新策略,并提出了可以通过汇集多样化的社会感知评估大型语言模型中社会偏见的度量标准。实验结果通过检查社会感知定量地展示了大型语言模型中的社会态度。我们进行的分析表明,我们提出的度量标准捕捉到了社会偏见的多维方面,从而实现了对大型语言模型中偏见的细致全面的调查。
Jun, 2024
通过多种评估指标,提出了一种多语言方法来估计基于 Transformer 的遮掩语言模型中的性别偏见。同时,通过与传统的基于词典的方法相比,提出了一种基于模型的方法,以更全面和稳健地分析性别偏见。
Apr, 2024
为了研究预训练遮蔽语言模型 (Masked Language Models) 的模型因素与所学习的社会偏见之间的关系,以及模型的下游任务性能,我们对 39 个不同模型大小、训练目标、分词方法、训练数据领域和语言进行了全面的研究。结果揭示了一些在先前文献中常被忽视的重要因素,如分词或模型目标。
Oct, 2023