英语掩码语言模型中的人类主义语言和非人类动物偏见
该论文介绍了一种基准测试数据CrowS-Pairs,用于评估预先训练的自然语言模型在涉及到社会偏见方面的表现,结果发现所有评估的模型在CrowS-Pairs的每个类别中都偏向于表达刻板印象的句子。
Sep, 2020
本次调查分析了NLP模型的社会影响,探讨了NLP算法中存在性别、种族和文化偏见的根源,定义了公平性,并说明了NLP各个子领域如何减少系统存在的偏见,最终讨论了未来研究如何消除NLP算法中的有害偏见。
Mar, 2022
本文介绍了一种全新的包含13个不同人口统计学轴线近600个描述符的、基于HolisticBias的更加包容性的偏差测量数据集,结合一组偏差测量模板产生超过45万个独特的句子提示,用于探索、识别和减少几个生成模型中的新型偏差。
May, 2022
本研究探讨了预训练语言模型在不同语言中所存在的偏见,提出了一种基于句子假设度量的模板方法来检测偏见,通过该方法分析了每个单语模型。研究发现,检测偏见的方法高度依赖于语言和文化,需要对每种语言和文化的独特表达方式进行深入了解。而与此相关的,我们假设非英语BERT模型中更高的社会偏见指数与其训练的用户生成内容有关。
Nov, 2022
本论文探讨自然语言处理模型中的偏见源自种族主义、性别歧视和同性恋恐惧症500年以来的历史,同时指出处理偏见和不公平的唯一方法是解决首先引起它们的社会问题,并引入社会科学及社会科学家的研究成果来减轻自然语言处理模型中的偏见。
May, 2023
本文提出了一种利用语言模型生成词汇变体、对抗性过滤和人工验证相结合的方法扩展现有的 Bias Benchmark for NLI (BBNLI) 测评数据集为 BBNLI-next,并介绍了能够区分模型误差类型的倾向度(bias)测量标准,说明了现有偏见分数存在的不足并提出了考虑到促进 / 反对刻板印象倾向和模型脆弱性的倾向度测量标准。
May, 2023
本篇论文调查了209篇关于自然语言处理模型中的偏差的论文,提出了社会人口统计学偏见的定义,并确定了研究偏见的三个主要类别:偏见类型,偏见度量和去偏见。作者总结说,目前的去偏见技术是肤浅的,不能真正消除偏见;最后提供了未来工作的建议。
Jun, 2023
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
通过使用迭代的蒙板实验测量变压器模型的预测质量,并评估多层语言模型对于劣势群体和优势群体的偏好,我们比较了两个基准数据集上的偏见估计结果,并发现在考虑的多层语言模型中具有相对较高的宗教和残疾偏见,而在一个数据集中相对较低的性别偏见。我们的测量方法在与人类注释者的一致性方面表现优于其他方法。我们通过评估在蒙版语言建模目标下重新训练多层语言模型后引入的社会偏见进行扩展,并发现我们提出的测量方法比其他方法更准确地估计了变压器之间具有偏见的句子的相对偏好。
Feb, 2024