自然语言处理中偏见和伤害的度量
本文综述了自然语言处理技术的快速发展所带来的问题,尤其是如何检测这些技术中的偏见。作者讨论了适用于评估和改进这些偏见测量方法的心理测量学概念,并认为采用心理测量学词汇和方法可以使 NLP 偏见研究更有效和透明。
Nov, 2022
本次调查分析了 NLP 模型的社会影响,探讨了 NLP 算法中存在性别、种族和文化偏见的根源,定义了公平性,并说明了 NLP 各个子领域如何减少系统存在的偏见,最终讨论了未来研究如何消除 NLP 算法中的有害偏见。
Mar, 2022
本文比较了不同任务和实验条件下数百个已训练模型的内在和外在偏差度量标准之间的关系,发现这些度量标准在所有情况下都没有可靠的相关性。作者呼吁重点关注外在的偏差度量标准,并通过创建新的挑战集和注释测试数据使使用这些度量标准更加可行。在此基础上,作者发布了一份基于性别偏见的仇恨言论的代码、新的内部度量标准和一个注释的测试集。
Dec, 2020
本文提出了三个广义公平度量标准,系统分析了不同的参数选择如何导致公平度量方法之间的差异,以更好地了解和处理 NLP/ML 模型中的不公平性。
Jun, 2021
通过量化和定性分析 90 个偏见测试,本文在应用测量建模框架来创造捕捉偏见测试目标的属性分类法的基础上,揭示了偏见测试的核心概念和操作存在的不明确、含蓄、或不匹配的偏差种类及其频度,并提出指导方案,以便更全面地探索偏见空间和更全面地评估语言模型的实验设计。
May, 2023
本篇论文调查了 209 篇关于自然语言处理模型中的偏差的论文,提出了社会人口统计学偏见的定义,并确定了研究偏见的三个主要类别:偏见类型,偏见度量和去偏见。作者总结说,目前的去偏见技术是肤浅的,不能真正消除偏见;最后提供了未来工作的建议。
Jun, 2023
对 146 篇分析自然语言处理系统中 “偏见” 的论文进行调查,发现大部分这些论文的动机模糊、不一致且缺少规范性推理,同时发现这些论文提出的量化技术与动机不符,并未接触自然语言以外的相关文献。基于这些发现,为分析自然语言处理系统中的 “偏见” 工作提出了三个建议。这些建议包括更加认识语言与社会等级之间的关系,鼓励研究人员和实践者表达对 “偏见” 的概念化,即什么样的系统行为对谁有害,以及为什么,同时也要关注受自然语言处理系统影响的社区成员的生活经验,质疑和重新构想技术人员与这样的社区之间的权力关系。
May, 2020
机器学习和数据驱动算法在决策制定领域的广泛应用已逐年增加,但相关负面影响也随之日益严重。负面数据偏差是其中之一,会对特定群体造成有害后果。为解决偏差带来的负面后果,必须首先认识到其存在,并找到一种能够理解和量化的方法。本文的主要贡献是:(1)提出了一个定义和高效量化数据集相对于保护群体偏差水平的通用算法框架;(2)定义了一种新的偏差度量方法。我们的实验结果在九个公开数据集上得到验证,并进行了理论分析,从而为该问题提供了新的见解。基于我们的方法,我们还推导出一种可能对政策制定者有用的偏差缓解算法。
May, 2024
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
本文通过研究 NLP 模型中三个社会身份(种族、性别和宗教)之间的偏见相关性,提出在对偏见进行改善时需要综合考虑相关的偏见,而不是各自分开处理,以引导更多相关研究
May, 2022