提高反事实生成以实现公正仇恨言论检测

ACLAug, 2021

提高反事实生成以实现公正仇恨言论检测

Improving Counterfactual Generation for Fair Hate Speech Detection

Aida Mostafazadeh Davani, Ali Omrani, Brendan Kennedy, Mohammad Atari, Xiang Ren...

TL;DR该研究探讨用于减少偏见的方法对具有社交群体令牌（SGT）的敏感特征的依赖，提高仪器在令牌之间的公平。在仇恨言论检测中，作者使用反事实公平并在反事实情况下等价预测，通过改变 SGTs 生成。这种方法通过对每个实例的限制反事实集上进行对数配对来提高公平性指标，同时保持对仇恨言论检测的模型性能。

Abstract

bias mitigation approaches reduce models' dependence on sensitive features of data, such as social group tokens (SGTs), resulting in equal predictions across the sensitive features. In hate speech detection, howe

bias mitigation hate speech detection counterfactual fairness pre-trained language models fairness metrics

发现论文，激发创造

通过反事实评估减少语言模型中的情感偏见

本文旨在量化并减少语言模型中表现出的情感偏见，该文分析了在给定的条件下（例如写作提示）和语言模型中，引起生成的文本情感发生变化的敏感属性（例如国家名称，职业，性别）的值变化的影响。我们采用公平机器学习文献中的个体和团体公正度量来量化情感偏见，并证明在两种不同的语料库（新闻文章和维基百科）上训练的大规模模型存在相当高的偏见。我们随后提出使用嵌入和情感预测导出的正则化方法，该方法应用于语言模型的潜在表示。该正则化提高了公正度量，同时保持了可比水平的困惑度和语义相似性。

Nov, 2019

具有一般化目标感知公平性的仇恨言论检测

为了解决社交媒体平台滥用的副作用，我们提出了一种名为 GetFair 的方法，该方法可以在分类中包含多样且未知的目标，以实现公平地识别含有有毒在线帖子的内容。

May, 2024

语言模型中应平等对待一切：反事实感知公平文本生成

通过使用 Counterfactually Aware Fair InferencE (CAFIE) 框架，我们提出了一种动态比较不同人口统计学数据模型理解能力的方法，以生成更公平的语句，从而实现公正的语言建模能力。

Nov, 2023

柔性文本生成用于反事实公平探究

本文介绍了一种使用大型语言模型生成对抗样本的方法，该方法克服了现有方法的局限性，能够产生复杂的对抗样本，并在 Civil Comments 数据集上比较了各种方法的性能和价值，并展示了其在评估毒性分类器方面的价值。

Jun, 2022

通过鲁棒性实现文本分类的反事实公平性

本文研究文本分类中的反事实公平性问题，提出了一种度量特定公平性形式 —— 反事实令牌公平性 (CTF) 的度量准则，利用三种方法 —— 盲化、反事实增强和反事实逻辑配对 (CL) 解决训练中的反事实令牌公平性优化问题，这些方法不会影响分类器性能，并且在小组公平性方面具有变化，为解决文本分类中的公平性问题提供了新的途径。

Sep, 2018

自然语言处理中的人类辅助公正分类

本研究提出了使用无监督风格转移和 GPT-3 的零 - shot 技术发现具有表达性和直观性的个体公平规范的新方法，以解决文本分类器中公平性问题。我们使用众包研究验证了所生成的具有人类直觉的公平排除敏感属性的语句对，并展示了有限数量的人类反馈如何帮助训练一种相似度规范来训练下游的公平感知模型。

Dec, 2022

在 NLP 模型中同时解决统计性别公平性和因果性别公平性

本研究评估了性别偏见的 NLP 模型的统计和因果去偏方法，发现这些方法在目标度量上有效减少了偏见，但不一定改善了其他偏见度量的结果。同时，我们展示了统计和因果去偏技术的组合能够减少通过两种类型的度量来衡量的偏见。

Mar, 2024

公平准确：学习仇恨言论检测中最佳准确性与公平性权衡

本文提出一种可微分度量方法来优化神经分类模型的团体公平性，继而展示了两个适用于不同组神经分类模型的 Pareto 最优化参数化的 MOO 框架，并在 Hate Speech Detection 任务上获得了优于先前方式的实证结果。

Apr, 2022

使用身份信息数据增强方法实现文本分类任务的公平性

本文提出了一种两步数据增强过程，第一步是使用词嵌入方法准备身份对的全面列表，第二步是利用身份对列表通过三种简单的操作（即身份对替换、身份项盲目替换和身份对交换）增强训练实例，实验结果表明，这个增强过程可以产生多样化的身份对，并提高了基于令牌的反事实公平度量得分，适用于两个文本分类任务。

Feb, 2022

缓解语音模型中的偏见的对比学习方法

使用对比学习技术来减轻语音模型中的偏差，改善性能不佳的子群体的内部表示，从而降低模型偏差并提升性能。

Jun, 2024