只需要 "爱": 回避仇恨言论检测

Aug, 2018

All You Need is "Love": Evading Hate-speech Detection

Tommi Gröndahl, Luca Pajola, Mika Juuti, Mauro Conti, N. Asokan

TL;DR该研究在对七种针对仇恨言论检测的最先进模型进行分析后，得出了基于数据类型和标注标准重要性大于模型架构的结论，并证明了字符级特征可以有效抵御自动插入错别字等对抗攻击。

Abstract

With the spread of social networks and their unfortunate use for hate speech, automatic detection of the latter has become a pressing problem. In this paper, we reproduce seven state-of-the-art →

hate speech social networks model architecture adversarial attacks character-level features

发现论文，激发创造

社交媒体中的强韧仇恨言论检测：跨数据集实证评估

针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调，分析了数据集通用性的差异，并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。

Jul, 2023

深度学习用于仇恨言论检测：一项比较研究

本研究对深度和浅层仇恨言论检测方法进行了大规模实证比较，并以常用数据集为媒介，特别关注实际性能和实践指导，以提供指导，并确定未来的研究方向。

Feb, 2022

利用深度生成模型实现大规模仇恨言论检测

该研究探讨使用深度学习对 hate speech 进行自动检测，基于生成的 1 百万条数据集进行模型训练，在公共 hate speech 数据集上获得了显著的性能提升，提高了对多样的 hate speech 序列的高灵敏检测能力，为实现完全自动化的解决方案铺平了道路。

May, 2020

基于机器学习的自动化仇恨言论检测中的挑战综述

探讨了自动检测恶意言论的各种挑战，并提供了一个分层组织的问题列表。在数据级别、模型级别和人类级别分别区分了挑战，并对每个层次进行了详尽的分析，以帮助研究人员更有效地设计其在恶意言论检测领域中的解决方案。

Sep, 2022

社交媒体仇恨言论检测的迁移学习

本文介绍了一种机器学习和自然语言处理模型，通过自动识别网页文本中的仇恨言论以及利用迁移学习技术构建了一个识别仇恨言论的表示方法，并开发了一个可视化工具用于多个数据集的简要分析。

Jun, 2019

构建仇恨言论检测数据集的挑战

通过对针对性别少数群体的仇恨言论的具体例子，本文分析了仇恨言论检测所面临的问题，并提出了一个以数据为中心的综合框架，以跨七个广泛的维度来概括数据创建流程，同时指出实践者将从按照该框架来创建未来的仇恨言论数据集中获益。

Sep, 2023

DeepHate: 多维文本表示的仇恨言论检测

提出一种新颖的深度学习模型 ——DeepHate，以使用多方面的文本表示方法（如词嵌入、情感和主题信息），自动检测在线社交平台上的仇恨言论。在三个公开可用的实际数据集上进行了广泛的实验和评估，结果表明 DeepHate 在检测仇恨言论的任务上优于现有技术水平，并进行了案例研究，以提供有助于检测在线社交平台上的仇恨言论的显着功能的见解。

Mar, 2021

基于 BERT 的在线社交媒体仇恨言论检测的迁移学习方法

本研究提出了一种基于 BERT 和 Transfer Learning 的新型方案，以捕获社交媒体内容中的仇恨语境，并证明该方案能有效解决标注数据不足和存在偏差的问题，使得模型性能得到提升。

Oct, 2019

探究社交媒体中针对仇恨言论的深度学习方法

本文提出利用深度学习方法，结合各种嵌入技术，在社交媒体中检测各种类型的仇恨言论，特别是在包含有限上下文信息的推文中，这是一种非常具有挑战性的任务，三个公开数据集的实验结果表明精确度和 F1 得分都有显著提高。

May, 2020

高度泛化的跨语言仇恨言论检测模型

该研究旨在使用多语言数据集进行多语言仇恨言论检测和分类，并通过评估方法和语言无关的嵌入技术提高分类性能。

Jan, 2022