评估掩码语言模型中的社会偏见的鲁棒评估度量

Jan, 2024

评估掩码语言模型中的社会偏见的鲁棒评估度量

Robust Evaluation Measures for Evaluating Social Biases in Masked Language Models

Yang Liu

TL;DR我们通过将伪对数似然（PLL）得分集表示为高斯分布，并使用 KL 散度和 JS 散度构建评估措施，以评估刻板化和反刻板化 PLL 得分的分布，发现我们提出的措施在公开可用的数据集 StereoSet（SS）和 CrowS-Pairs（CP）上显示出显著的鲁棒性和可解释性。

Abstract

Many evaluation measures are used to evaluate social biases in masked language models (MLMs). However, we find that these previously proposed eva

evaluation measures social biases masked language models pll scores stereotypical and anti-stereotypical samples

发现论文，激发创造

构建面向掩蔽语言模型社会偏见的整体度量

本文利用高斯分布提出了 KLDivS 和 JSDivS 两种新的评估社会偏见的度量方法，并在公共数据集 StereoSet 和 CrowS-Pairs 上进行了实验，结果表明 KLDivS 和 JSDivS 比过去提出的度量方法更稳定和可解释。

May, 2023

通过预测质量的代理方法测量掩盖语言模型中的社会偏见

通过使用迭代的蒙板实验测量变压器模型的预测质量，并评估多层语言模型对于劣势群体和优势群体的偏好，我们比较了两个基准数据集上的偏见估计结果，并发现在考虑的多层语言模型中具有相对较高的宗教和残疾偏见，而在一个数据集中相对较低的性别偏见。我们的测量方法在与人类注释者的一致性方面表现优于其他方法。我们通过评估在蒙版语言建模目标下重新训练多层语言模型后引入的社会偏见进行扩展，并发现我们提出的测量方法比其他方法更准确地估计了变压器之间具有偏见的句子的相对偏好。

Feb, 2024

一个更好的掩码语言模型评分方法

该论文提出了一种适用于遮蔽语言模型的评估方法，该方法通过遮蔽目标词汇和目标词汇右侧的所有词汇来计算伪对数似然分数，并表明该方法优于原始的伪对数似然方法和一种遮蔽单词内词汇的伪对数似然方法，并且选择适当的评分指标对于评估一个语言模型的性能很重要。

May, 2023

揭开口罩 —— 评估蒙面语言模型中的社会偏见

本文提出了一种名为 AUL 并基于 attention weights 的 Alle Unmasked Likelihood 方法，用于检测 Masked Language Models 中的社会偏见，并发现以前的评估指标存在一系列问题，例如不考虑掩码的预测精度和测试集中的高频词掩码等问题。

Apr, 2021

掩蔽语言模型评分

通过掩码语言模型的伪对数似然得分，我们证明该方法在各种任务中优于自回归语言模型。RoBERTa 减小端到端 LibriSpeech 模型的 WER，同时增加低资源翻译的 BLEU 得分，这个成功要归功于伪对数似然得分的无监督表达，而不具有从左到右的偏见。

Oct, 2019

多语言遮蔽语言模型中的性别偏见

通过提出多语种偏差评估模型（MBE）和手动创建的数据集对八种语言的语言模型进行评估，证实了所有这些语言中均存在针对性别相关的偏差，同时在日语和俄语中的手动创建的数据集与 MBE 评分存在显著相关性。

May, 2022

微妙偏见需要更微妙的度量：用于评估大型语言模型中代表性偏见和亲和偏见的双重度量

研究大型语言模型中的偏差，包括代表性偏差和亲和力偏差，引入了两种新的度量指标 —— 代表性偏差分数（RBS）和亲和力偏差分数（ABS），并提出了以检测这些微妙偏差为目标的创意生成套件（CoGS）。分析发现知名的大型语言模型存在明显的代表性偏差，偏向与白人、异性恋和男性相关的身份，同时亲和力偏差研究揭示了每个模型独特的评估模式，类似于 “偏见指纹”。人类评估者也表现出这种趋势，突显了人类与机器偏见认知之间的复杂相互作用。

May, 2024

比较内在性别偏见评估方法，无需使用人工标注示例

本文提出了一种对先前提出的内在性别偏见评估方法进行比较的方法，该方法不需要使用人工注释样例，而是通过使用自动挖掘的语料库中的男女性句子来创建多个偏置控制的 PLMs，并使用每个 PLM 评估内在性别偏见评估措施。实验表明，所提出的方法计算的偏见得分与用人工注释样例计算的结果相当。

Jan, 2023

CrowS-Pairs：一个挑战数据集，用于测试面具语言模型中的社会偏见

该论文介绍了一种基准测试数据 CrowS-Pairs，用于评估预先训练的自然语言模型在涉及到社会偏见方面的表现，结果发现所有评估的模型在 CrowS-Pairs 的每个类别中都偏向于表达刻板印象的句子。

Sep, 2020

直接问 LLMs：“是什么塑造了你的偏见？”：评估大型语言模型中的社会偏见

社会偏见在大型语言模型中是由各种人口统计学特征的目标的社会感知的积累所塑造的。为了全面理解大型语言模型中的这种社会偏见，必须考虑到各种身份认同之间多元观点下的社会感知。本文旨在研究各种视角的社会感知如何影响大型语言模型中社会偏见的发展。为此，我们提出了一种直观量化这些社会感知的新策略，并提出了可以通过汇集多样化的社会感知评估大型语言模型中社会偏见的度量标准。实验结果通过检查社会感知定量地展示了大型语言模型中的社会态度。我们进行的分析表明，我们提出的度量标准捕捉到了社会偏见的多维方面，从而实现了对大型语言模型中偏见的细致全面的调查。

Jun, 2024