HateDebias: 关于仇恨言论去偏见的多样性与可变性

Jun, 2024

HateDebias: 关于仇恨言论去偏见的多样性与可变性

HateDebias: On the Diversity and Variability of Hate Speech Debiasing

Nankai Lin, Hongyan Wu, Zhengming Chen, Zijian Li, Lianxi Wang...

TL;DR社交媒体上的仇恨言论普遍存在且亟需控制，本研究提出了一个名为 HateDebias 的基准测试，旨在分析在不断变化的环境下仇恨言论检测模型的能力，通过收集不同类型偏见的现有数据集，并重新组织数据集以适应连续学习的设置，评估在单一类型偏见数据集上训练的模型的检测准确性与在 HateDebias 上的表现，进一步提出了基于连续学习和偏见信息规范化的去偏见框架和记忆重播策略，实验结果表明该方法可以显著提高几个基线模型的效果，突显其在实际应用中的有效性。

Abstract

hate speech on social media is ubiquitous but urgently controlled. Without detecting and mitigating the biases brought by hate speech, different types of ethical problems. While a number of →

hate speech bias datasets continuous learning debiasing framework

发现论文，激发创造

社交媒体中的强韧仇恨言论检测：跨数据集实证评估

针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调，分析了数据集通用性的差异，并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。

Jul, 2023

构建仇恨言论检测数据集的挑战

通过对针对性别少数群体的仇恨言论的具体例子，本文分析了仇恨言论检测所面临的问题，并提出了一个以数据为中心的综合框架，以跨七个广泛的维度来概括数据创建流程，同时指出实践者将从按照该框架来创建未来的仇恨言论数据集中获益。

Sep, 2023

减少对话中的偏见：借助提示的仇恨言论分类器和去偏器

提出了一种两步骤的方法，通过一个分类器检测仇恨言论，然后利用去偏见的组件生成较少偏见或无偏见的替代方案，从而减少在线讨论中负面影响和偏见。

Jul, 2023

应对数据稀缺条件下隐式仇恨言论分类中的高方差问题

本文通过优化和规范技术，提出一种基于 RoBERTa 的新型模型，解决仅有少量隐含仇恨言论数据的高方差问题，达到了最先进的表现。

Aug, 2022

基于 BERT 模型的社交媒体仇恨言论检测及种族偏见缓解

通过使用预训练语言模型 BERT 进行迁移学习，本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法，并将对算法进行合理地裁剪降低出现倾向性的缺陷。

Aug, 2020

高度泛化的跨语言仇恨言论检测模型

该研究旨在使用多语言数据集进行多语言仇恨言论检测和分类，并通过评估方法和语言无关的嵌入技术提高分类性能。

Jan, 2022

深度学习用于仇恨言论检测：一项比较研究

本研究对深度和浅层仇恨言论检测方法进行了大规模实证比较，并以常用数据集为媒介，特别关注实际性能和实践指导，以提供指导，并确定未来的研究方向。

Feb, 2022

解释的力量：走向自动去偏见的仇恨言论检测

本研究提出了一种自动的误用检测器，该检测器依赖于解释方法来检测潜在的偏见，并基于此构建了端到端的去偏扭框架，适用于文本分类器而无需任何外部资源。

Sep, 2022

DeepHate: 多维文本表示的仇恨言论检测

提出一种新颖的深度学习模型 ——DeepHate，以使用多方面的文本表示方法（如词嵌入、情感和主题信息），自动检测在线社交平台上的仇恨言论。在三个公开可用的实际数据集上进行了广泛的实验和评估，结果表明 DeepHate 在检测仇恨言论的任务上优于现有技术水平，并进行了案例研究，以提供有助于检测在线社交平台上的仇恨言论的显着功能的见解。

Mar, 2021

只需要 "爱": 回避仇恨言论检测

该研究在对七种针对仇恨言论检测的最先进模型进行分析后，得出了基于数据类型和标注标准重要性大于模型架构的结论，并证明了字符级特征可以有效抵御自动插入错别字等对抗攻击。

Aug, 2018