自然语言处理中脏话混淆的现状

Oct, 2022

The State of Profanity Obfuscation in Natural Language Processing

Debora Nozza, Dirk Hovy

TL;DR通过对 150 篇 ACL 论文的调查，该研究发现脏话模糊处理通常只用于英文论文且其处理不均衡。因此，研究者提出了一个多语言社区资源 PrOf，它具有 Python 模块来标准化脏话模糊处理流程，从而帮助科学出版策略使仇恨言论得到标准化处理且具有可比性。

Abstract

Work on hate speech has made the consideration of rude and harmful examples in scientific publications inevitable. This raises various problems, such as whether or not to obscure profanities. While science must a

hate speech scientific publications obfuscation multilingual community resource prof

发现论文，激发创造

区分粗言秽语和仇恨言论中的挑战

本研究通过使用新的数据集及一系列特征，包括 n-grams、skip-grams 和基于聚类的单词表示等，运用监督式分类方法，分别采用单个分类器、集成分类器和堆叠泛化等方法来区分社交媒体上的普通粗口和仇恨言论，获得了 80% 的准确率。然而，研究发现要区分仇恨言论和粗口并不是一件简单的任务。

Mar, 2018

ToxiCloakCN: 评估中文攻击性语言识别模型的鲁棒性

通过改进的数据集在汉语中测试大型语言模型（LLMs）对于侮辱性内容的检测，研究表明现有模型在存在这些干扰时检测侮辱性内容的性能明显不足，强调了对进阶技术的迫切需求以应对逃避检测机制的不断演变的策略。

Jun, 2024

利用多语言转换器来进行仇恨言论检测

该论文基于 Transformer 语言模型，研究了在社交媒体文本中检测和分类仇恨的问题，并将其固定为三类，同时证明了多语言训练模式的有效性和特定特征对体系结构分类表现的影响。

Jan, 2021

使用自然语言处理的仇恨言论自动检测的系统综述

本文对社交媒体上仇恨言论检测和追踪的问题进行了系统综述，重点关注自然语言处理和深度学习技术，概述了该领域的文献、方法和限制，并提出未来研究方向。

May, 2021

走向可推广的仇恨言论检测：障碍与解决方案综述

本综述旨在总结现有关于自然语言处理中针对在线仇恨言论检测模型泛化能力的研究结果、对现有模型泛化难题的原因进行解释、总结已有解决方案，并提出未来改善检测模型泛化能力的研究方向。

Feb, 2021

在线平台上的辱骂语言检测：关键分析

调查了当前针对滥用语言的自动检测方法以及在线平台的内容管理政策，研究方向及未来工作发展方向。

Feb, 2021

保持私密性：在线文本的无监督私有化

通过强化学习，我们介绍了一种自动文本隐私保护框架，该框架通过针对大型语言模型进行微调，产生能够在保持准确性、连贯性和隐私性之间达到平衡的重写文本，并在大规模的测试集上进行了全面评估，并成功规避了多种自动化作者识别攻击。

May, 2024

多语言模型在社交媒体上识别冒犯性语言的表现

本研究旨在使用多种算法测试识别冒犯帖子的能力，并评估其对多种评估方法的性能，以减少这些语言对人工审核者的伤害。通过实验，本项目能够激发对识别方法和内容的未来研究。

Dec, 2023

网络有害言论的多维度识别视角：不只是仇恨

本文介绍了一种使用多个标签注释恶意在线言论的方法，强调了注释应该是细致、准确的。作者发布了一个高质量的数据集，使用六个标签注释了超过 40,000 条有关移民的推文，在此数据集上训练模型的表现优于基准数据集。

Oct, 2022

HateMonitors：社交媒体语言无关的滥用检测

本文介绍了我们基于梯度提升机、BERT 和 LASER 嵌入式开发的 HateMonitor 模型，在 Indo-European Languages HASOC（FIRE 2019 的任务之一）中排名第一，用于令人讨厌和令人反感的内容识别。

Sep, 2019