减少对话中的偏见：借助提示的仇恨言论分类器和去偏器

KDDJul, 2023

减少对话中的偏见：借助提示的仇恨言论分类器和去偏器

Mitigating Bias in Conversations: A Hate Speech Classifier and Debiaser with Prompts

Shaina Raza, Chen Ding, Deval Pandya

TL;DR提出了一种两步骤的方法，通过一个分类器检测仇恨言论，然后利用去偏见的组件生成较少偏见或无偏见的替代方案，从而减少在线讨论中负面影响和偏见。

Abstract

discriminatory language and biases are often present in hate speech during conversations, which usually lead to negative impacts on target

discriminatory language hate speech biases debiasing component online discourse

发现论文，激发创造

HateDebias: 关于仇恨言论去偏见的多样性与可变性

社交媒体上的仇恨言论普遍存在且亟需控制，本研究提出了一个名为 HateDebias 的基准测试，旨在分析在不断变化的环境下仇恨言论检测模型的能力，通过收集不同类型偏见的现有数据集，并重新组织数据集以适应连续学习的设置，评估在单一类型偏见数据集上训练的模型的检测准确性与在 HateDebias 上的表现，进一步提出了基于连续学习和偏见信息规范化的去偏见框架和记忆重播策略，实验结果表明该方法可以显著提高几个基线模型的效果，突显其在实际应用中的有效性。

Jun, 2024

解释的力量：走向自动去偏见的仇恨言论检测

本研究提出了一种自动的误用检测器，该检测器依赖于解释方法来检测潜在的偏见，并基于此构建了端到端的去偏扭框架，适用于文本分类器而无需任何外部资源。

Sep, 2022

基于 BERT 模型的社交媒体仇恨言论检测及种族偏见缓解

通过使用预训练语言模型 BERT 进行迁移学习，本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法，并将对算法进行合理地裁剪降低出现倾向性的缺陷。

Aug, 2020

社交媒体上的仇恨言论反制：仇恨言论和反言论的大规模分类

通过使用自我标记的群体进行有组织在线仇恨言论和反言论，研究使用集成学习算法识别有组织在线仇恨言论和反言论，发现自动化方法在评估社交媒体上协调反言论对稳定对话的影响的潜力。

Jun, 2020

超越谴责仇恨：消除语言中暗含的偏见和刻板印象的策略

通过心理学和哲学文献，我们提供六种基于心理学的策略来挑战令人讨厌的语言中的刻板印象，并发现人类编写的反言中使用更具体的对抗策略，而机器生成的反言使用的策略通常不太具体且不太令人信服。

Oct, 2023

在社交媒体上检测仇恨言论

本文通过使用字符 n-gram、单词 n-gram 和单词 skip-gram 的方法，利用最近发布的 annotated dataset 建立基于词汇的垃圾言论检测任务，并成功实现了 78% 的准确率。研究结果表明，区分垃圾言论和粗俗言论之间的主要难题在于歧视。最后，文章提出了未来的研究方向。

Dec, 2017

利用双重对比学习进行仇恨言论检测

本文提出了一种新颖的双对比学习框架，用于捕获 hate speech 中的短语级情感语义，并通过将聚焦损失集成到框架中来解决数据不平衡问题，并在两个英语数据集上取得了 state-of-the-art 的表现，从而成功地检测出 hate speech。

Jul, 2023

一个用于在线仇恨言论干预学习的基准数据集

本文提出了一项生成式仇恨言论干预的新任务，并介绍了从 Gab 和 Reddit 收集的两个全标记的大规模仇恨言论干预数据集，该数据集提供了对话段、仇恨言论标签以及 MTurk Workers 编写的干预响应，此外，本文还分析了这些数据集以了解常见的干预策略，并探索常见的自动响应生成方法在这些新数据集上的性能以提供未来研究的基准。

Sep, 2019

整合对抗仇恨言论的策略 —— 利用说服对话

社交媒体平台上存在大量的仇恨评论。我们提出了一种用于生成反驳仇恨评论的可控策略的方法，并通过特征控制响应生成，研究了鼓励长期解决方案的可行性。

Jan, 2024

仇恨言论和对话语境相关的反言检测

研究表明，上下文对于识别网络仇恨言论和反对言论至关重要。作者利用 Reddit 评论创建了一个上下文感知数据集，使用人类判断和神经网络实验结果表明，考虑上下文可以使结果显著提升。

Jun, 2022