因果引导的跨平台仇恨言论检测中的解缠

Aug, 2023

因果引导的跨平台仇恨言论检测中的解缠

Causality Guided Disentanglement for Cross-Platform Hate Speech Detection

Paras Sheth, Tharindu Kumarage, Raha Moraffah, Aman Chadha, Huan Liu

TL;DR社交媒体平台上存在有害内容的传播问题，目前的深度学习和自然语言处理模型在检测这些有害内容时过于依赖特定领域术语，影响了它们在泛化仇恨言论检测方面的能力。我们的研究提出了一种跨平台仇恨言论检测模型，可以在一个平台的数据上进行训练，并推广到多个未知平台。通过将输入表示分解为不变特征和依赖平台的特征，学习因果关系，我们能够获得对分布转换具有鲁棒性的特征用于预测泛化的仇恨言论。我们在四个平台上进行了大量实验，结果显示我们的模型在检测泛化仇恨言论方面比现有的最先进方法具有更好的效果。

Abstract

social media platforms, despite their value in promoting open discourse, are often exploited to spread harmful content. Current deep learning

social media platforms harmful content deep learning cross-platform models hate speech detection

发现论文，激发创造

弱监督因果解离下的跨平台仇恨言论检测

使用基于置信度的重新权重和对比正则化的方法，本研究提出了 HATE WATCH，这是一种弱监督因果分解的新型框架，可以绕过显式目标标签的需求，并有效地将输入特征分解为对仇恨言论具有不变性的表示。在两个带有目标标签和两个没有目标标签的平台上进行的实证验证将 HATE WATCH 定位为一种新的跨平台仇恨言论检测方法，并展现出卓越的性能。HATE WATCH 推动了可扩展的内容管理技术，以发展更加安全的在线社区。

Apr, 2024

PEACE：基于因果推理的跨平台仇恨言论检测框架

本文提出了一种基于原因的 hate speech detection 框架 PEACE，能够从文本中识别整体情感和攻击等固有因果线索，从而帮助实现不同平台上的泛化。

Jun, 2023

社交媒体仇恨言论检测的迁移学习

本文介绍了一种机器学习和自然语言处理模型，通过自动识别网页文本中的仇恨言论以及利用迁移学习技术构建了一个识别仇恨言论的表示方法，并开发了一个可视化工具用于多个数据集的简要分析。

Jun, 2019

高度泛化的跨语言仇恨言论检测模型

该研究旨在使用多语言数据集进行多语言仇恨言论检测和分类，并通过评估方法和语言无关的嵌入技术提高分类性能。

Jan, 2022

利用情感知识提高跨领域仇恨言论的泛化能力

一项关于仇恨言论检测的研究，提出了一种基于情绪知识的多任务架构的方法，通过跨领域设置来改善仇恨言论检测的泛化能力，实验证明其在交叉领域评估中具有稳定的泛化改进和平均交叉领域性能提升。

Nov, 2023

DeepHate: 多维文本表示的仇恨言论检测

提出一种新颖的深度学习模型 ——DeepHate，以使用多方面的文本表示方法（如词嵌入、情感和主题信息），自动检测在线社交平台上的仇恨言论。在三个公开可用的实际数据集上进行了广泛的实验和评估，结果表明 DeepHate 在检测仇恨言论的任务上优于现有技术水平，并进行了案例研究，以提供有助于检测在线社交平台上的仇恨言论的显着功能的见解。

Mar, 2021

只需要 "爱": 回避仇恨言论检测

该研究在对七种针对仇恨言论检测的最先进模型进行分析后，得出了基于数据类型和标注标准重要性大于模型架构的结论，并证明了字符级特征可以有效抵御自动插入错别字等对抗攻击。

Aug, 2018

利用深度生成模型实现大规模仇恨言论检测

该研究探讨使用深度学习对 hate speech 进行自动检测，基于生成的 1 百万条数据集进行模型训练，在公共 hate speech 数据集上获得了显著的性能提升，提高了对多样的 hate speech 序列的高灵敏检测能力，为实现完全自动化的解决方案铺平了道路。

May, 2020

基于 Transformer 深度学习的多语种仇恨言论分析与检测

使用基于 Transformer 模型的算法来检测社交媒体上的仇恨言论，无论语言如意大利语、英语、德语还是孟加拉语，该模型的检测准确率较现有基准和最先进模型提高，其成功率达到了 89%（孟加拉语）、91%（英语和德语）以及 77%（意大利语）

Jan, 2024

社交媒体中的强韧仇恨言论检测：跨数据集实证评估

针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调，分析了数据集通用性的差异，并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。

Jul, 2023