弱监督因果解离下的跨平台仇恨言论检测

Apr, 2024

弱监督因果解离下的跨平台仇恨言论检测

Cross-Platform Hate Speech Detection with Weakly Supervised Causal Disentanglement

Paras Sheth, Tharindu Kumarage, Raha Moraffah, Aman Chadha, Huan Liu

TL;DR使用基于置信度的重新权重和对比正则化的方法，本研究提出了 HATE WATCH，这是一种弱监督因果分解的新型框架，可以绕过显式目标标签的需求，并有效地将输入特征分解为对仇恨言论具有不变性的表示。在两个带有目标标签和两个没有目标标签的平台上进行的实证验证将 HATE WATCH 定位为一种新的跨平台仇恨言论检测方法，并展现出卓越的性能。HATE WATCH 推动了可扩展的内容管理技术，以发展更加安全的在线社区。

Abstract

content moderation faces a challenging task as social media's ability to spread hate speech contrasts with its role in promoting global connectivity. With rapidly evolving slang and →

content moderation hate speech causality inspired disentanglement weakly supervised causal disentanglement cross platform hate speech detection

发现论文，激发创造

因果引导的跨平台仇恨言论检测中的解缠

社交媒体平台上存在有害内容的传播问题，目前的深度学习和自然语言处理模型在检测这些有害内容时过于依赖特定领域术语，影响了它们在泛化仇恨言论检测方面的能力。我们的研究提出了一种跨平台仇恨言论检测模型，可以在一个平台的数据上进行训练，并推广到多个未知平台。通过将输入表示分解为不变特征和依赖平台的特征，学习因果关系，我们能够获得对分布转换具有鲁棒性的特征用于预测泛化的仇恨言论。我们在四个平台上进行了大量实验，结果显示我们的模型在检测泛化仇恨言论方面比现有的最先进方法具有更好的效果。

Aug, 2023

PEACE：基于因果推理的跨平台仇恨言论检测框架

本文提出了一种基于原因的 hate speech detection 框架 PEACE，能够从文本中识别整体情感和攻击等固有因果线索，从而帮助实现不同平台上的泛化。

Jun, 2023

利用弱监督的双路径自举方法识别显式和隐式仇恨言论

使用弱监督的双路径自举方法，基于大规模无标注数据建立在线仇恨言论检测系统，有效解决了标注偏见和标注成本高昂等问题。在选举前、后和当天收集的大量推文上应用该模型，揭示了煽动性语言的动机和模式。

Oct, 2017

利用双重对比学习进行仇恨言论检测

本文提出了一种新颖的双对比学习框架，用于捕获 hate speech 中的短语级情感语义，并通过将聚焦损失集成到框架中来解决数据不平衡问题，并在两个英语数据集上取得了 state-of-the-art 的表现，从而成功地检测出 hate speech。

Jul, 2023

DeepHate: 多维文本表示的仇恨言论检测

提出一种新颖的深度学习模型 ——DeepHate，以使用多方面的文本表示方法（如词嵌入、情感和主题信息），自动检测在线社交平台上的仇恨言论。在三个公开可用的实际数据集上进行了广泛的实验和评估，结果表明 DeepHate 在检测仇恨言论的任务上优于现有技术水平，并进行了案例研究，以提供有助于检测在线社交平台上的仇恨言论的显着功能的见解。

Mar, 2021

社交媒体仇恨言论检测的迁移学习

本文介绍了一种机器学习和自然语言处理模型，通过自动识别网页文本中的仇恨言论以及利用迁移学习技术构建了一个识别仇恨言论的表示方法，并开发了一个可视化工具用于多个数据集的简要分析。

Jun, 2019

DeL-haTE: 偏见言论检测的深度学习可调整集成模型

针对社交媒体上在线仇恨言论问题，提出了一种基于集成深度学习模型的新框架，包括对未标记数据集的自动分类、调整因子和弱监督学习方法，可有效提高依恋集等小众平台的恶意言论检测率。

Nov, 2020

只需要 "爱": 回避仇恨言论检测

该研究在对七种针对仇恨言论检测的最先进模型进行分析后，得出了基于数据类型和标注标准重要性大于模型架构的结论，并证明了字符级特征可以有效抵御自动插入错别字等对抗攻击。

Aug, 2018

仇恨言论分类的预测不确定性估计

为了更好地检测和过滤仇恨言论，需要开发出可以检测仇恨言论并帮助用户理解何时越过界限的机器学习模型。该研究使用深度神经网络和蒙特卡洛 dropout 正则化方法来进行预测和评估，以可靠地检测仇恨言论并提高分类可靠性和准确性。

Sep, 2019

跨数据集弱监督仇恨言论分类

本篇论文提出了一种基于极弱监督策略的方法以解决仅存在于部分数据集的种族主义言辞（HS）的识别问题，并探究了 HS 分类模型泛化能力不佳的原因。

May, 2023