社交媒体上的仇恨言论普遍存在且亟需控制,本研究提出了一个名为 HateDebias 的基准测试,旨在分析在不断变化的环境下仇恨言论检测模型的能力,通过收集不同类型偏见的现有数据集,并重新组织数据集以适应连续学习的设置,评估在单一类型偏见数据集上训练的模型的检测准确性与在 HateDebias 上的表现,进一步提出了基于连续学习和偏见信息规范化的去偏见框架和记忆重播策略,实验结果表明该方法可以显著提高几个基线模型的效果,突显其在实际应用中的有效性。
Jun, 2024
本研究提出了一种自动的误用检测器,该检测器依赖于解释方法来检测潜在的偏见,并基于此构建了端到端的去偏扭框架,适用于文本分类器而无需任何外部资源。
Sep, 2022
通过使用预训练语言模型 BERT 进行迁移学习,本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法,并将对算法进行合理地裁剪降低出现倾向性的缺陷。
Aug, 2020
通过使用自我标记的群体进行有组织在线仇恨言论和反言论,研究使用集成学习算法识别有组织在线仇恨言论和反言论,发现自动化方法在评估社交媒体上协调反言论对稳定对话的影响的潜力。
Jun, 2020
通过心理学和哲学文献,我们提供六种基于心理学的策略来挑战令人讨厌的语言中的刻板印象,并发现人类编写的反言中使用更具体的对抗策略,而机器生成的反言使用的策略通常不太具体且不太令人信服。
Oct, 2023
本文通过使用字符 n-gram、单词 n-gram 和单词 skip-gram 的方法,利用最近发布的 annotated dataset 建立基于词汇的垃圾言论检测任务,并成功实现了 78% 的准确率。研究结果表明,区分垃圾言论和粗俗言论之间的主要难题在于歧视。最后,文章提出了未来的研究方向。
Dec, 2017
本文提出了一种新颖的双对比学习框架,用于捕获 hate speech 中的短语级情感语义,并通过将聚焦损失集成到框架中来解决数据不平衡问题,并在两个英语数据集上取得了 state-of-the-art 的表现,从而成功地检测出 hate speech。
Jul, 2023
本文提出了一项生成式仇恨言论干预的新任务,并介绍了从 Gab 和 Reddit 收集的两个全标记的大规模仇恨言论干预数据集,该数据集提供了对话段、仇恨言论标签以及 MTurk Workers 编写的干预响应,此外,本文还分析了这些数据集以了解常见的干预策略,并探索常见的自动响应生成方法在这些新数据集上的性能以提供未来研究的基准。
Sep, 2019
社交媒体平台上存在大量的仇恨评论。我们提出了一种用于生成反驳仇恨评论的可控策略的方法,并通过特征控制响应生成,研究了鼓励长期解决方案的可行性。
Jan, 2024
研究表明,上下文对于识别网络仇恨言论和反对言论至关重要。作者利用 Reddit 评论创建了一个上下文感知数据集,使用人类判断和神经网络实验结果表明,考虑上下文可以使结果显著提升。
Jun, 2022