多语言遮蔽语言模型中的性别偏见
通过多种评估指标,提出了一种多语言方法来估计基于 Transformer 的遮掩语言模型中的性别偏见。同时,通过与传统的基于词典的方法相比,提出了一种基于模型的方法,以更全面和稳健地分析性别偏见。
Apr, 2024
该研究通过评估六个主要的语言模型(BERT,RoBERTa,DistilBERT,BERT-multilingual,XLM-RoBERTa 和 DistilBERT-multilingual)并采用包含鼓励模型生成英语主题代词和要求模型返回与性别代词相关的动词、副词和形容词概率的提示来调查遮蔽语言模型中固有的偏见,尤其是性别偏见。分析结果显示所有模型存在性别刻板印象,而多语言变体的偏见相对较小。
Jan, 2024
分析表明,尽管社会偏见存在于所有 MLMs 中,但大多数类型的社会偏见在时间上相对稳定(有几个例外)。进一步分析影响 MLMs 社会偏见的机制,我们发现在训练语料库中,某些人口群体(如男性)一直相对于其他人口群体(如女性)更受偏好。
Jun, 2024
我们研究了不同语言中大型语言模型生成的输出中的性别偏见,通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词(她 / 他)的性别偏见以及生成对话的主题的性别偏见。我们的研究表明,在我们调查的所有语言中都存在显著的性别偏见。
Mar, 2024
这项研究探讨在多语言环境中评估和减少性别偏见在语言模型中的挑战,并通过 DisCo 扩展到不同的印度语言来创建了一个评估预训练屏蔽语言模型中性别偏见的基准,同时评估了各种方法对 SOTA 大规模多语言模型减轻此类偏见的有效性。
Jul, 2023
通过对四个最近发表的大型语言模型进行测试,我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见,它们更倾向于选择与性别刻板印象相关的职业,并且在提供自己选择的解释时常常存在事实错误,对于这些模型的偏见行为,我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。
Aug, 2023
通过使用迭代的蒙板实验测量变压器模型的预测质量,并评估多层语言模型对于劣势群体和优势群体的偏好,我们比较了两个基准数据集上的偏见估计结果,并发现在考虑的多层语言模型中具有相对较高的宗教和残疾偏见,而在一个数据集中相对较低的性别偏见。我们的测量方法在与人类注释者的一致性方面表现优于其他方法。我们通过评估在蒙版语言建模目标下重新训练多层语言模型后引入的社会偏见进行扩展,并发现我们提出的测量方法比其他方法更准确地估计了变压器之间具有偏见的句子的相对偏好。
Feb, 2024
该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法,通过识别和分类与人类实体相关的具有性别特征的名词和代词,揭示了四个广泛使用的基准数据集中存在的显著性别差异,从男性到女性的比例范围从 4:1 到 6:1,这些发现证明了我们方法在性别语言中进行偏见量化的价值,并建议在自然语言处理中应用该方法,为更公平的语言技术发展做出贡献。
Jun, 2024
本研究旨在通过检测自然语言处理中的倾向性,确定人工智能模型的偏见和风险,并揭示这些模型对社会中处于弱势地位、受到歧视的群体的影响。结果表明,预训练的 MLMs(Masked Language Models)和他们的下游情感分类器存在着对社会中处于弱势地位、受到歧视的群体的偏见。
Jun, 2023
为了研究预训练遮蔽语言模型 (Masked Language Models) 的模型因素与所学习的社会偏见之间的关系,以及模型的下游任务性能,我们对 39 个不同模型大小、训练目标、分词方法、训练数据领域和语言进行了全面的研究。结果揭示了一些在先前文献中常被忽视的重要因素,如分词或模型目标。
Oct, 2023