具有一般化目标感知公平性的仇恨言论检测

KDDMay, 2024

具有一般化目标感知公平性的仇恨言论检测

Hate Speech Detection with Generalizable Target-aware Fairness

Tong Chen, Danny Wang, Xurong Liang, Marten Risius, Gianluca Demartini...

TL;DR为了解决社交媒体平台滥用的副作用，我们提出了一种名为 GetFair 的方法，该方法可以在分类中包含多样且未知的目标，以实现公平地识别含有有毒在线帖子的内容。

Abstract

To counter the side effect brought by the proliferation of social media platforms, hate speech detection (HSD) plays a vital role in halting the dissemination of toxic online posts at an early stage. However, giv

hate speech detection fairness-aware content moderation toxic online posts getfair

发现论文，激发创造

提高反事实生成以实现公正仇恨言论检测

该研究探讨用于减少偏见的方法对具有社交群体令牌（SGT）的敏感特征的依赖，提高仪器在令牌之间的公平。在仇恨言论检测中，作者使用反事实公平并在反事实情况下等价预测，通过改变 SGTs 生成。这种方法通过对每个实例的限制反事实集上进行对数配对来提高公平性指标，同时保持对仇恨言论检测的模型性能。

Aug, 2021

公平准确：学习仇恨言论检测中最佳准确性与公平性权衡

本文提出一种可微分度量方法来优化神经分类模型的团体公平性，继而展示了两个适用于不同组神经分类模型的 Pareto 最优化参数化的 MOO 框架，并在 Hate Speech Detection 任务上获得了优于先前方式的实证结果。

Apr, 2022

使用基于知识的概括去除对仇恨言论检测任务的刻板偏见

针对社交媒体平台上不断增加的仇恨言论传播案例，本文提出了一种基于知识的泛化学习方法，旨在从无结构的文本数据中去除偏差和刻板化的词语，以实现偏差性言论的检测和控制。实验结果表明，与基于传统偏差去除方法的分类器相比，使用本文所提出的方法获得了更好的性能和偏差缓解效果。

Jan, 2020

利用情感知识提高跨领域仇恨言论的泛化能力

一项关于仇恨言论检测的研究，提出了一种基于情绪知识的多任务架构的方法，通过跨领域设置来改善仇恨言论检测的泛化能力，实验证明其在交叉领域评估中具有稳定的泛化改进和平均交叉领域性能提升。

Nov, 2023

自然语言处理中的人类辅助公正分类

本研究提出了使用无监督风格转移和 GPT-3 的零 - shot 技术发现具有表达性和直观性的个体公平规范的新方法，以解决文本分类器中公平性问题。我们使用众包研究验证了所生成的具有人类直觉的公平排除敏感属性的语句对，并展示了有限数量的人类反馈如何帮助训练一种相似度规范来训练下游的公平感知模型。

Dec, 2022

基于潜在特征的数据划分方法改善泛化评估：仇恨言论检测案例研究

通过对现有数据集的新的训练 - 测试分割，我们挑战了仅基于目标和关键词训练、评估仅考虑训练和测试数据之间的分布变化的仇恨言论模型。我们提出了两种分割变体，并使用四个预训练模型应用于两个数据集，揭示了模型在潜在空间中的盲点上的灾难性失败。进一步分析表明，数据分割的表面级属性与性能下降之间没有明确的相关性，这突显了任务的难度不总是容易人类解释的。我们推荐在模型开发中加入基于潜在特征的分割，并通过 GenBench 基准发布了两种分割方案。

Nov, 2023

在深假检测中保持公平性泛化

通过同时考虑特征、损失和优化方面，我们提出了第一个在深度假像检测中解决公平性泛化问题的方法，采用解缠学习提取人口统计和领域无关的伪造特征，并将它们融合在一起，以在交叉领域的深度假像检测中鼓励公平学习。在知名深度假像数据集上进行的广泛实验证明了我们方法在保持公平性方面的有效性，超过了现有技术水平。

Feb, 2024

HateDebias: 关于仇恨言论去偏见的多样性与可变性

社交媒体上的仇恨言论普遍存在且亟需控制，本研究提出了一个名为 HateDebias 的基准测试，旨在分析在不断变化的环境下仇恨言论检测模型的能力，通过收集不同类型偏见的现有数据集，并重新组织数据集以适应连续学习的设置，评估在单一类型偏见数据集上训练的模型的检测准确性与在 HateDebias 上的表现，进一步提出了基于连续学习和偏见信息规范化的去偏见框架和记忆重播策略，实验结果表明该方法可以显著提高几个基线模型的效果，突显其在实际应用中的有效性。

Jun, 2024

深度伪造检测中公平性的提高

本文提出了一种新的算法来训练公平的 deepfake detection model，以解决使用偏见的数据训练深度学习模型可能会导致不公平表现的问题。实验结果表明，该方法可以提高 deepfake detection 的公平性和鲁棒性。

Jun, 2023

自然语言推断的公平泛化任务设定

本文提出了一个正式的公平概念，并利用人工数据集来展示标准神经模型在要求的泛化方面表现不佳，只有联合组合前提和假设的任务特定模型能够达到高性能，即使这些模型也不能完美解决任务。

Nov, 2019