HCDIR：在线评论的端到端仇恨上下文检测与强度降低模型

Dec, 2023

HCDIR：在线评论的端到端仇恨上下文检测与强度降低模型

HCDIR: End-to-end Hate Context Detection, and Intensity Reduction model for online comments

Neeraj Kumar Singh, Koyel Ghosh, Joy Mahapatra, Utpal Garain, Apurbalal Senapati

TL;DR在这篇论文中，我们提出了一种新颖的端到端模型 HCDIR，用于社交媒体帖子中仇恨上下文的检测和仇恨强度的降低。我们通过微调多个预训练语言模型来检测仇恨评论，并通过集成梯度（IG）模型辩证地确定了这些仇恨词的上下文。最后，我们使用掩蔽式语言建模（MLM）模型捕捉领域特定细微之处，以降低仇恨强度。我们在多个最新数据集上进行了广泛的实验，并使用基于自动度量标准（BERTScore）和全面的人工评估来增强信度。为了提高人工评估的可靠性，我们安排了一个由 3 名具有不同专业知识的人类标注者组成的小组。

Abstract

Warning: This paper contains examples of the language that some people may find offensive. Detecting and reducing hateful, abusive, offensive comments is a critical and challenging task on social media. Moreover, few studies aim to mitigate the intensity of hate speech. While studies have shown that context-level semantics are crucial for detecting hateful c

hate speech detection low-resource languages end-to-end model hate context detection hate intensity reduction

发现论文，激发创造

HateMonitors：社交媒体语言无关的滥用检测

本文介绍了我们基于梯度提升机、BERT 和 LASER 嵌入式开发的 HateMonitor 模型，在 Indo-European Languages HASOC（FIRE 2019 的任务之一）中排名第一，用于令人讨厌和令人反感的内容识别。

Sep, 2019

利用双重对比学习进行仇恨言论检测

本文提出了一种新颖的双对比学习框架，用于捕获 hate speech 中的短语级情感语义，并通过将聚焦损失集成到框架中来解决数据不平衡问题，并在两个英语数据集上取得了 state-of-the-art 的表现，从而成功地检测出 hate speech。

Jul, 2023

基于特征提取的仇恨言论识别模型

本文介绍了 TU Berlin 小组在 2021 年印欧语言仇恨言论与攻击性内容检测共享任务的 1A 和 1B 子任务中采用的不同自然语言处理模型，包括基于循环神经网络的单词和字符级别模型以及基于 Bert 的转移学习方法，并评估了不同模型在比赛中的表现。结果表明，基于转移学习的模型在两个子任务中均取得了最佳结果。

Jan, 2022

预测 Twitter 会话线程的仇恨强度

本文提出了 DRAGNET++，使用推文线程的语义和传播结构来预测推文的仇恨强度，可以识别出即使是微妙的推文也有可能引发仇恨言论，超越了所有最先进的基线。

Jun, 2022

利用受害者的仇恨进行越南社交媒体文本中的仇恨言论检测

社交媒体上激进内容的快速传播促使了对仇恨言论的检测任务的需求，本论文提供了一种构建用于针对性仇恨言论检测的系统的方法，并介绍了一个越南社交媒体文本的针对性仇恨言论检测数据集，并结合预训练语言模型与基于文本表征的 Bi-GRU-LSTM-CNN 模型建立了基线模型，最终提出了一种方法将该模型整合至在线流媒体系统，以在社交媒体上防止令人讨厌和冒犯性内容的实际应用。

Apr, 2024

基于 BERT 的在线社交媒体仇恨言论检测的迁移学习方法

本研究提出了一种基于 BERT 和 Transfer Learning 的新型方案，以捕获社交媒体内容中的仇恨语境，并证明该方案能有效解决标注数据不足和存在偏差的问题，使得模型性能得到提升。

Oct, 2019

HateRephrase: 在线帖子中使用大型语言模型进行零次和少次转换减少仇恨强度

研究表明，使用大型语言模型（LLMs）在检测潜在仇恨言论并在发布前对其进行重新表述方面表现优异，进而减少其仇恨程度而不改变原始文本的语义意义。

Oct, 2023

使用上下文感知模型检测在线仇恨言论

本文提出了一个包含上下文信息的仇恨言论数据集并提出了两种模型：一个基于逻辑回归模型的模型和一个具有上下文学习组件的神经网络模型。实验表明，这两种模型在 F1 得分方面优于强基线约 3％到 4％，结合这两种模型可进一步提高 7％的 F1 得分。

Oct, 2017

社交媒体仇恨言论检测的迁移学习

本文介绍了一种机器学习和自然语言处理模型，通过自动识别网页文本中的仇恨言论以及利用迁移学习技术构建了一个识别仇恨言论的表示方法，并开发了一个可视化工具用于多个数据集的简要分析。

Jun, 2019

仇恨言论和对话语境相关的反言检测

研究表明，上下文对于识别网络仇恨言论和反对言论至关重要。作者利用 Reddit 评论创建了一个上下文感知数据集，使用人类判断和神经网络实验结果表明，考虑上下文可以使结果显著提升。

Jun, 2022