不要愚蠢：用户意图的敌对攻击中的汇聚策略在攻击性语言检测中的应用

ACLMar, 2024

不要愚蠢：用户意图的敌对攻击中的汇聚策略在攻击性语言检测中的应用

Don't be a Fool: Pooling Strategies in Offensive Language Detection from User-Intended Adversarial Attacks

Seunguk Yu, Juhwan Choi, Youngbin Kim

TL;DR该研究提出了防御用户意图中的敌对攻击的简单而有效的分层池化策略，以提高对攻击性文本的检测性能。研究发现，通过使用这些池化策略，即使攻击强度增加，预训练于干净文本的模型也能够实现与预训练于含噪文本的模型相当的检测性能。

Abstract

offensive language detection is an important task for filtering out abusive expressions and improving online user experiences. However, malicious users often attempt to avoid filtering systems through the involvement of textual noises. In this paper, we propose these evasions as user-i

offensive language detection adversarial attacks pooling strategies performance degradation pre-trained models

发现论文，激发创造

减轻人为偏见的冒犯性语言检测的语言模式开发

通过语言数据扩增方法，减少标注过程中的偏见，借助机器的力量提高标注过程的准确性和公平性，以改善跨多种语言的冒犯性语言分类任务，并减少社交媒体上冒犯性内容的传播。

Dec, 2023

跨文化转移学习用于汉语攻击性言语检测

本研究旨在研究利用来自不同文化背景（尤其是韩国和英国）的数据进行传递学习对汉语攻击性语言检测的影响，并发现考虑文化特定的偏见会对语言模型的可传递性产生负面影响，而在多元文化的数据上训练的语言模型对汉语攻击性语言检测的不同特征敏感。研究表明，在有限的资源下，少样本学习情况下进行非英语攻击性语言检测有着良好的前景，并突显了跨文化传递学习在改善攻击性语言检测和促进包容性数字空间方面的重要性。

Mar, 2023

论攻击性语言分类器的鲁棒性

该研究对社交媒体平台上的机器学习型进攻性语言分类器的鲁棒性做出了系统的分析，并证明了具有贪婪和注意力机制的词汇选择和上下文感知嵌入的攻击可将这些分类器的准确性降低 50% 以上，同时还能保持修改后文本的可读性和含义。

Mar, 2022

对话安全的建立、破坏和修复：来自于人类对抗性攻击的鲁棒性

本研究以交互式学习的方式开发出一种训练方案，提高自然语言处理在对话中检测攻击性语言的鲁棒性，并证明此方法比前一代系统稳健性更强。同时，该研究表明检测对话中的攻击性语言不能看作是单个句子的任务，必须考虑到对话背景。

Aug, 2019

跨语言迁移技术提升攻击性语言检测：SemEval-2020 第 12 项任务中的 NLPDove

本文介绍了我们在多语言环境下识别冒犯性语言的方法，使用数据增强策略，包括使用具有不同阈值的附加半监督标签和跨语言转移与数据选择，并提出了一个新的度量标准 Translation Embedding Distance，用于跨语言数据选择。我们还提出了各种预处理步骤和微调方法，定制社交媒体文本的预训练多语言 BERT（mBERT）来进行冒犯性语言识别，我们的多语言系统在 OffensEval 2020 上取得了有竞争力的结果。

Aug, 2020

基于神经网络字符组合的滥用检测模型

本研究设计了一个可以为未知单词组合嵌入的模型，与现有的自然语言处理技术相比，本方法可以更好地检测社交媒体上的滥用言论，数据集包含 Twitter 和 Wikipedia talk page。

Sep, 2018

基于深度学习的推文中的恶意语言检测

该论文提出了一种在社交媒体上识别仇恨内容的检测方案，并使用带有用户相关信息的各种特征以及来自文本内容的词频向量输入到一组循环神经网络分类器中，经实验证明该方法的有效性不仅可以成功区分仇恨言论和正常文本，而且分类的准确性也高于现有的最先进算法。

Jan, 2018

多语言模型在社交媒体上识别冒犯性语言的表现

本研究旨在使用多种算法测试识别冒犯帖子的能力，并评估其对多种评估方法的性能，以减少这些语言对人工审核者的伤害。通过实验，本项目能够激发对识别方法和内容的未来研究。

Dec, 2023

扩展范围：将英语对抗攻击应用于中文

本研究通过适当的文本分割和语言约束，将英语自然语言处理领域最先进的对抗性攻击算法适应于中文，并展示了这些攻击方法可以生成高质量的对抗性样本，从而提高了中文自然语言处理领域的对抗鲁棒性。

Jun, 2023

ToxiCloakCN: 评估中文攻击性语言识别模型的鲁棒性

通过改进的数据集在汉语中测试大型语言模型（LLMs）对于侮辱性内容的检测，研究表明现有模型在存在这些干扰时检测侮辱性内容的性能明显不足，强调了对进阶技术的迫切需求以应对逃避检测机制的不断演变的策略。

Jun, 2024