通过预测质量的代理方法测量掩盖语言模型中的社会偏见

Feb, 2024

通过预测质量的代理方法测量掩盖语言模型中的社会偏见

Measuring Social Biases in Masked Language Models by Proxy of Prediction Quality

Rahul Zalkikar, Kanchan Chandra

TL;DR通过使用迭代的蒙板实验测量变压器模型的预测质量，并评估多层语言模型对于劣势群体和优势群体的偏好，我们比较了两个基准数据集上的偏见估计结果，并发现在考虑的多层语言模型中具有相对较高的宗教和残疾偏见，而在一个数据集中相对较低的性别偏见。我们的测量方法在与人类注释者的一致性方面表现优于其他方法。我们通过评估在蒙版语言建模目标下重新训练多层语言模型后引入的社会偏见进行扩展，并发现我们提出的测量方法比其他方法更准确地估计了变压器之间具有偏见的句子的相对偏好。

Abstract

Social and political scientists often aim to discover and measure distinct biases from text data representations (embeddings). Innovative transformer-based language models produce contextually-aware token embeddi

biases transformer-based language models masked language modeling social biases evaluation methods

发现论文，激发创造

评估社交媒体数据和屏蔽语言模型中短期时间波动的社交偏见

分析表明，尽管社会偏见存在于所有 MLMs 中，但大多数类型的社会偏见在时间上相对稳定（有几个例外）。进一步分析影响 MLMs 社会偏见的机制，我们发现在训练语料库中，某些人口群体（如男性）一直相对于其他人口群体（如女性）更受偏好。

Jun, 2024

预训练遮蔽语言模型中社会偏见和任务表现的预测因素分析

为了研究预训练遮蔽语言模型 (Masked Language Models) 的模型因素与所学习的社会偏见之间的关系，以及模型的下游任务性能，我们对 39 个不同模型大小、训练目标、分词方法、训练数据领域和语言进行了全面的研究。结果揭示了一些在先前文献中常被忽视的重要因素，如分词或模型目标。

Oct, 2023

UnMASKed: 通过语言学知识的职业市场提示量化遮蔽语言模型中的性别偏见

该研究通过评估六个主要的语言模型（BERT，RoBERTa，DistilBERT，BERT-multilingual，XLM-RoBERTa 和 DistilBERT-multilingual）并采用包含鼓励模型生成英语主题代词和要求模型返回与性别代词相关的动词、副词和形容词概率的提示来调查遮蔽语言模型中固有的偏见，尤其是性别偏见。分析结果显示所有模型存在性别刻板印象，而多语言变体的偏见相对较小。

Jan, 2024

揭开口罩 —— 评估蒙面语言模型中的社会偏见

本文提出了一种名为 AUL 并基于 attention weights 的 Alle Unmasked Likelihood 方法，用于检测 Masked Language Models 中的社会偏见，并发现以前的评估指标存在一系列问题，例如不考虑掩码的预测精度和测试集中的高频词掩码等问题。

Apr, 2021

多语言遮蔽语言模型中的性别偏见

通过提出多语种偏差评估模型（MBE）和手动创建的数据集对八种语言的语言模型进行评估，证实了所有这些语言中均存在针对性别相关的偏差，同时在日语和俄语中的手动创建的数据集与 MBE 评分存在显著相关性。

May, 2022

掩盖语言模型和下游情感分类任务中对 93 个受污名化群体的偏见

本研究旨在通过检测自然语言处理中的倾向性，确定人工智能模型的偏见和风险，并揭示这些模型对社会中处于弱势地位、受到歧视的群体的影响。结果表明，预训练的 MLMs（Masked Language Models）和他们的下游情感分类器存在着对社会中处于弱势地位、受到歧视的群体的偏见。

Jun, 2023

直接问 LLMs：“是什么塑造了你的偏见？”：评估大型语言模型中的社会偏见

社会偏见在大型语言模型中是由各种人口统计学特征的目标的社会感知的积累所塑造的。为了全面理解大型语言模型中的这种社会偏见，必须考虑到各种身份认同之间多元观点下的社会感知。本文旨在研究各种视角的社会感知如何影响大型语言模型中社会偏见的发展。为此，我们提出了一种直观量化这些社会感知的新策略，并提出了可以通过汇集多样化的社会感知评估大型语言模型中社会偏见的度量标准。实验结果通过检查社会感知定量地展示了大型语言模型中的社会态度。我们进行的分析表明，我们提出的度量标准捕捉到了社会偏见的多维方面，从而实现了对大型语言模型中偏见的细致全面的调查。

Jun, 2024

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

多语言遮蔽语言模型中的性别偏见评估

通过多种评估指标，提出了一种多语言方法来估计基于 Transformer 的遮掩语言模型中的性别偏见。同时，通过与传统的基于词典的方法相比，提出了一种基于模型的方法，以更全面和稳健地分析性别偏见。

Apr, 2024

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021