自然语言处理中不良偏见:避免度量危机
本次调查分析了 NLP 模型的社会影响,探讨了 NLP 算法中存在性别、种族和文化偏见的根源,定义了公平性,并说明了 NLP 各个子领域如何减少系统存在的偏见,最终讨论了未来研究如何消除 NLP 算法中的有害偏见。
Mar, 2022
本文回顾了当今关于识别和减轻 NLP 中的性别偏置的研究,并分析了四种代表性偏置基础上的性别偏见和认识其方法,同时探讨了现有性别去偏方法的优缺点和未来的研究。
Jun, 2019
对 146 篇分析自然语言处理系统中 “偏见” 的论文进行调查,发现大部分这些论文的动机模糊、不一致且缺少规范性推理,同时发现这些论文提出的量化技术与动机不符,并未接触自然语言以外的相关文献。基于这些发现,为分析自然语言处理系统中的 “偏见” 工作提出了三个建议。这些建议包括更加认识语言与社会等级之间的关系,鼓励研究人员和实践者表达对 “偏见” 的概念化,即什么样的系统行为对谁有害,以及为什么,同时也要关注受自然语言处理系统影响的社区成员的生活经验,质疑和重新构想技术人员与这样的社区之间的权力关系。
May, 2020
本文调查了 304 篇关于自然语言处理中的性别偏见的论文,分析了社会科学中性别及其类别的定义,并将其与自然语言处理中性别偏见的正式定义联系起来,概述了应用于性别偏见研究的词汇和数据集,并比较和对比了检测和缓解性别偏见的方法。我们发现性别偏见研究存在四个核心限制,提出了解决这些限制的建议作为未来研究的指南。
Dec, 2021
本篇论文调查了 209 篇关于自然语言处理模型中的偏差的论文,提出了社会人口统计学偏见的定义,并确定了研究偏见的三个主要类别:偏见类型,偏见度量和去偏见。作者总结说,目前的去偏见技术是肤浅的,不能真正消除偏见;最后提供了未来工作的建议。
Jun, 2023
文章提出了一种用于 NLP(自然语言处理)的预测性偏差框架,该框架将数据、模型、标签偏差、选择偏差、模型过度放大、语义偏差作为偏差的四个主要来源,并探讨了过去的工作是如何对抗每种偏差来源的,以期引导未来研究。
Nov, 2019
通过量化和定性分析 90 个偏见测试,本文在应用测量建模框架来创造捕捉偏见测试目标的属性分类法的基础上,揭示了偏见测试的核心概念和操作存在的不明确、含蓄、或不匹配的偏差种类及其频度,并提出指导方案,以便更全面地探索偏见空间和更全面地评估语言模型的实验设计。
May, 2023
我们研究了不同语言中大型语言模型生成的输出中的性别偏见,通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词(她 / 他)的性别偏见以及生成对话的主题的性别偏见。我们的研究表明,在我们调查的所有语言中都存在显著的性别偏见。
Mar, 2024