英语掩码语言模型中的人类主义语言和非人类动物偏见

Mar, 2022

英语掩码语言模型中的人类主义语言和非人类动物偏见

Speciesist Language and Nonhuman Animal Bias in English Masked Language Models

Masashi Takeshita, Rafal Rzepka, Kenji Araki

TL;DR本文分析了英语遮蔽语言模型（如BERT）中存在的针对非人动物的种族主义偏见，研究发现在使用非人动物的名称时，预训练的遮蔽语言模型可能倾向于使用侮辱性的语言，将不良词汇与非人动物联系起来。

Abstract

Various existing studies have analyzed what social biases are inherited by nlp models. These biases may directly or indirectly harm people, therefore previous studies have focused only on human attributes. If the

发现论文，激发创造

自然语言语料库所自动生成的语义带有类似人类的偏见

这份研究首次展示，应用标准机器学习到日常语言时会形成类似于人类的语义偏见，同时该研究还提供了用于评估文本偏见的新方法。

Aug, 2016

CrowS-Pairs：一个挑战数据集，用于测试面具语言模型中的社会偏见

该论文介绍了一种基准测试数据CrowS-Pairs，用于评估预先训练的自然语言模型在涉及到社会偏见方面的表现，结果发现所有评估的模型在CrowS-Pairs的每个类别中都偏向于表达刻板印象的句子。

Sep, 2020

自然语言处理中偏差和公平性调查

本次调查分析了NLP模型的社会影响，探讨了NLP算法中存在性别、种族和文化偏见的根源，定义了公平性，并说明了NLP各个子领域如何减少系统存在的偏见，最终讨论了未来研究如何消除NLP算法中的有害偏见。

Mar, 2022

在综合描述符数据集中发现语言模型中的新偏见

本文介绍了一种全新的包含13个不同人口统计学轴线近600个描述符的、基于HolisticBias的更加包容性的偏差测量数据集，结合一组偏差测量模板产生超过45万个独特的句子提示，用于探索、识别和减少几个生成模型中的新型偏差。

May, 2022

分析多种语言BERT变体中存在的社会偏见

本研究探讨了预训练语言模型在不同语言中所存在的偏见，提出了一种基于句子假设度量的模板方法来检测偏见，通过该方法分析了每个单语模型。研究发现，检测偏见的方法高度依赖于语言和文化，需要对每种语言和文化的独特表达方式进行深入了解。而与此相关的，我们假设非英语BERT模型中更高的社会偏见指数与其训练的用户生成内容有关。

Nov, 2022

从 Jim 代码的视角看自然语言处理中偏见的起源

本论文探讨自然语言处理模型中的偏见源自种族主义、性别歧视和同性恋恐惧症500年以来的历史，同时指出处理偏见和不公平的唯一方法是解决首先引起它们的社会问题，并引入社会科学及社会科学家的研究成果来减轻自然语言处理模型中的偏见。

May, 2023

语言模型的新发现：在自然语言推理数据和模型中的鲁棒性-偏差互动

本文提出了一种利用语言模型生成词汇变体、对抗性过滤和人工验证相结合的方法扩展现有的 Bias Benchmark for NLI (BBNLI) 测评数据集为 BBNLI-next，并介绍了能够区分模型误差类型的倾向度（bias）测量标准，说明了现有偏见分数存在的不足并提出了考虑到促进 / 反对刻板印象倾向和模型脆弱性的倾向度测量标准。

May, 2023

自然语言处理中社会人口统计信息偏差调查

本篇论文调查了209篇关于自然语言处理模型中的偏差的论文，提出了社会人口统计学偏见的定义，并确定了研究偏见的三个主要类别：偏见类型，偏见度量和去偏见。作者总结说，目前的去偏见技术是肤浅的，不能真正消除偏见；最后提供了未来工作的建议。

Jun, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

通过预测质量的代理方法测量掩盖语言模型中的社会偏见

通过使用迭代的蒙板实验测量变压器模型的预测质量，并评估多层语言模型对于劣势群体和优势群体的偏好，我们比较了两个基准数据集上的偏见估计结果，并发现在考虑的多层语言模型中具有相对较高的宗教和残疾偏见，而在一个数据集中相对较低的性别偏见。我们的测量方法在与人类注释者的一致性方面表现优于其他方法。我们通过评估在蒙版语言建模目标下重新训练多层语言模型后引入的社会偏见进行扩展，并发现我们提出的测量方法比其他方法更准确地估计了变压器之间具有偏见的句子的相对偏好。

Feb, 2024