实现稳健有害内容分类

Dec, 2019

Towards Robust Toxic Content Classification

Keita Kurita, Anna Belova, Antonios Anastasopoulos

TL;DR本文提出了一种通过生成包含毒性单词的对抗样本，从而检验模型对毒性内容的识别性能，并探讨了使用 Contextual Denoising Autoencoder 提高模型鲁棒性的方法。实验表明，该方法在某些情况下可以将现有模型的检测准确率降低 50％以上。

Abstract

toxic content detection aims to identify content that can offend or harm its recipients. Automated classifiers of toxic content need to be robust against adversaries who deliberately try to bypass filters. We propose a method of generating realistic model-agnostic attacks using a lexic

toxic content detection adversarial attacks neural toxicity detectors contextual denoising autoencoder robustness

发现论文，激发创造

构建鲁棒的毒性预测模型

最近的自然语言处理文献很少关注毒性语言预测器的稳健性，而这些系统最有可能在对抗性环境中使用。本文提出了一种新的对抗性攻击方法 ToxicTrap，通过引入小的单词级扰动来欺骗最先进的文本分类器，将有毒的文本样本预测为良性。ToxicTrap 利用贪婪的搜索策略，实现了快速有效地生成有毒对抗样本。通过两个新颖的目标函数设计，ToxicTrap 可以识别多类别和多标签毒性语言检测器的弱点。我们的实证结果表明，SOTA 的毒性文本分类器确实容易受到这种攻击的影响，在多标签情况下攻击成功率超过 98％。我们还展示了如何使用普通的对抗训练及其改进版来增强毒性检测器的鲁棒性，即使面对未知的攻击。

Apr, 2024

对抗难以察觉的有毒触发器的强健对话代理

本文探讨了自然语言处理中毒性检测模型的发展和对抗性攻击的防御机制，提出了一种攻击和防御机制针对对话系统，能够自动触发系统生成毒性语言，同时保持谈话流畅度，并证明了该防御机制不仅有效避免了毒性语言生成，而且可以推广到对话系统之外的语言生成模型。

May, 2022

基于 Transformer 的语言模型降低毒性的奖励建模

本文提出了一种新的基于强化学习的语言模型去毒性方法 - Reinforce-Detoxify，通过引入新的奖励机制，它能够有效地检测出有毒的内容，并减轻与社会身份相关的无意识偏见。实验表明，Reinforce-Detoxify 方法在语言模型去毒性方面优于现有的去毒性方法，并且生成内容不太容易存在社会身份上的偏见。

Feb, 2022

条件对抗正则化自编码器对文本数据集的毒性攻击

本文研究证明自然语言推理和文本分类系统中的致命性漏洞，并提出了 “后门毒化” 攻击的方法，该攻击利用条件对抗正则化自编码器（CARA）在潜在空间中注入毒素来生成毒化训练样本并导致系统面临严重的安全风险。

Oct, 2020

使用有毒语料库对语言模型进行脱毒

本研究探讨自回归语言模型生成的上下文倾向于产生不良偏见和毒性，提出使用有害文本作为附加资源组合两种去偏见方法来减少毒性，结果表明有害文本可以显着减少语言生成过程的毒性，为现有去偏见方法提供了补充。

Apr, 2022

网络欺凌分类器对模型无关扰动敏感

本研究探讨了模型无关的敌对行为和数据增强对有毒内容分类的影响，发现模型不再仅仅依靠词汇线索，而是更易受攻击和影响，需要更多的数据增强以提高鲁棒性与准确性。

Jan, 2022

少则得多：在数据稀缺的情况下提高有毒语言分类

本论文通过系统研究，比较了八种不同的数据增强技术对有限标注数据下毒性语言分类器的性能影响，结果表明包括 GPT-2 生成的语句在内的三种数据增强技术能显著提升浅层分类器的表现，与 BERT 相比表现相近。同时讨论了性能和计算开销之间的相互影响，以探讨在不同约束条件下技术选择的影响。

Sep, 2020

自动去偏见检测有害语言面临的挑战

由于文本分类器开发中的偏见关联限制了公平性和准确性，因此我们调查了最近介绍的去偏置方法，作用于检测有毒语言的文本分类数据集和模型，重点关注词汇（例如骂人话、侮辱性言论、身份称谓）和方言标记（特别是非裔美国英语）。我们的全面实验表明，现有的方法在防止当前毒性检测器中出现有偏见的行为方面存在局限性。然后，我们提出了一种自动的方言感知数据校正方法作为概念验证。尽管采用了合成标签，但该方法减少了方言与毒性之间的关联。总的来说，我们的发现表明，在训练有毒性偏见性数据的模型时去偏置并不如简单重标记数据以消除现有偏见有效。

Jan, 2021

自动对抗性发现用于安全分类器

安全分类器和对抗攻击是在线论坛（如社交媒体和聊天机器人）中减少毒性的关键，然而它们仍然容易受到新兴且数量众多的对抗攻击的影响。本文提出了一种自动对抗发现安全分类器的方法，以在以前未见的伤害维度上寻找新的攻击方法，以揭示分类器的新弱点。我们通过两个主要指标来衡量这个任务的进展（1）对抗成功性：攻击是否欺骗了分类器？（2）维度多样性：攻击是否代表了以前未见的伤害类型？通过对 CivilComments 毒性任务中的现有攻击生成方法进行评估，发现它们存在局限性：词汇扰动攻击无法欺骗分类器，而基于提示的 LLM 攻击具有更高的对抗成功性，但缺乏维度多样性。即使是我们最有效的基于提示的方法，仍然只在攻击的以前未见的伤害维度上成功了 5％的时间。自动发现攻击的新的有害维度至关重要，并且在这个新任务上未来研究有巨大的潜力。

Jun, 2024

卷积神经网络用于有害评论分类

通过使用卷积神经网络方法来识别文本中有害评论，取得了很好的效果，为其在过滤互联网内容中的作用提供了充分的证据。

Feb, 2018