本研究提出了一种去偏见的方法,利用辅助模型检测出具有偏见的数据样本并在训练过程中进行下权重处理,从而实现在没有昂贵的人口统计学注释过程的情况下缓解社会偏见。
Dec, 2022
针对社交媒体平台上不断增加的仇恨言论传播案例,本文提出了一种基于知识的泛化学习方法,旨在从无结构的文本数据中去除偏差和刻板化的词语,以实现偏差性言论的检测和控制。实验结果表明,与基于传统偏差去除方法的分类器相比,使用本文所提出的方法获得了更好的性能和偏差缓解效果。
Jan, 2020
本文介绍了一种全新的包含 13 个不同人口统计学轴线近 600 个描述符的、基于 HolisticBias 的更加包容性的偏差测量数据集,结合一组偏差测量模板产生超过 45 万个独特的句子提示,用于探索、识别和减少几个生成模型中的新型偏差。
May, 2022
快速增长的自然语言处理在各种社会技术解决方案中的使用和应用突显了对偏见及其对社会的影响的全面理解的需求。虽然 NLP 中的偏见研究得到了扩展,但仍存在一些需要关注的挑战,包括有限地关注种族和性别以外的社会人口偏见、主要集中在模型上的狭窄分析范围,以及技术为中心的实施方法。本文解决了这些挑战,并倡导一种更加跨学科的方式来理解 NLP 中的偏见。该工作分为三个方面,每个方面探索 NLP 中的特定偏见方面。
Aug, 2023
本研究探讨了在人口统计方面出现的偏差对自然语言处理中的模型和数据集的影响,通过对大量的人工标注文本扰动数据的训练,得出采用人口统计扰动数据进行预训练和调优可以使语言模型更加公平,并且能在不牺牲下游任务性能的前提下减少模型的偏差。
本篇论文调查了 209 篇关于自然语言处理模型中的偏差的论文,提出了社会人口统计学偏见的定义,并确定了研究偏见的三个主要类别:偏见类型,偏见度量和去偏见。作者总结说,目前的去偏见技术是肤浅的,不能真正消除偏见;最后提供了未来工作的建议。
Jun, 2023
该研究旨在解决自然语言处理中与作者人口统计信息相关的系统偏差问题,提出了一种基于数据集平衡和带保护属性的门控模型来实现公正性,证明了该方法在减少偏差方面优于其他技术。
Sep, 2021
本研究提出了使用无监督风格转移和 GPT-3 的零 - shot 技术发现具有表达性和直观性的个体公平规范的新方法,以解决文本分类器中公平性问题。我们使用众包研究验证了所生成的具有人类直觉的公平排除敏感属性的语句对,并展示了有限数量的人类反馈如何帮助训练一种相似度规范来训练下游的公平感知模型。
研究人口因素如何影响语言,使用预先训练的转换器语言模型通过多任务学习适应语言表示,结果表明人口统计特征对 PLMs 的效果不明显。
Oct, 2022
我们提出了一种通用方法来控制自然语言生成中的社会偏见。通过对特定人口群体进行输入提示的提及,我们开发了一种诱发社会偏见的方法,并对两种情况进行了分析:在一种人口群体中诱发负面偏见,同时在另一种人口群体中诱发正面偏见,并使偏见在不同人口群体之间相等。该方法被证明在减轻偏见过程中是有效的。
May, 2020