通过人为扰动在线评估内容审核机器学习模型

Mar, 2023

通过人为扰动在线评估内容审核机器学习模型

NoisyHate: Benchmarking Content Moderation Machine Learning Models with Human-Written Perturbations Online

Yiran Ye, Thai Le, Dongwon Lee

TL;DR本文提出了一种包含人为写作的扰动，用于评估社交媒体上毒性发言检测模型的效果，并测试了该测试集在深度学习　(BERT 和 RoBERTa) 和黑盒 API（如 Perspective API）上的表现，结果表明带有真实人为扰动的对抗攻击仍然有效。

Abstract

Online texts with toxic content are a threat in social media that might cause cyber harassment. Although many platforms applied measures, such as machine learning-based hate-speech detection systems, to diminish

toxic content machine learning adversarial samples human-written perturbations cyber harassment

发现论文，激发创造

基于数据驱动的对抗文本扰动缓解

本文提出了一种使用 deobfuscation 和 CW2V 嵌入的强健分类管道，用于检测 Facebook 帖子是否请求参与（例如点赞）。在针对有意和无意的对抗文本扰动方面，CW2V 嵌入的强健性优于基于字符 ngram 的嵌入，其分类结果在扰动下的 AUC 从 0.70 降至 0.67，而字符 ngram 嵌入的分类结果从 0.76 降至 0.64。

Feb, 2022

CRYPTEXT：人类书写文本扰动数据库和交互式工具包

本文介绍了一种名为 CRYPTEXT 的交互式系统，它提供了一个包含工具和数据库的数据密集型应用程序，用于提取和归一人类书写文本的文本语言扰动，并提供了一个交互式界面，用于在线监视和分析文本扰动。

Jan, 2023

穿越黑暗：揭示现代 AI 内容检测器的有效干扰

利用机器学习模型对文章进行自动生成的大语言模型，在知识产权保护、个人隐私和学术诚信方面引发了关注。AI 文本检测系统目前存在鲁棒性不足和难以有效区分扰动文本的问题。本研究通过模拟真实场景，评估当前检测模型在实际应用中的性能，并构建了 12 种黑盒文本扰动方法来评估检测模型的鲁棒性。此外，通过对抗学习实验，研究扰动数据增强对 AI 文本检测器鲁棒性的影响。

Jun, 2024

利用自然语言扰动进行逼真的对抗攻击和防御

本文提出了新算法 ANTHRO，利用文本扰动实现对一个基于 BERT 的分类器进行对抗性攻击，并达到了攻击成功率高，语义保留性好，难以察觉等目标效果，可用于对抗训练。

Mar, 2022

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

深度学习文本分类算法对实际输入扰动的敏感性研究

本文研究基于深度学习的文本分类模型（CNN、LSTM 和 BERT）在面对有意义但与最终性能无关的输入扰动（如标点符号和停用词）时的表现，发现包括 BERT 在内的这类模型都很敏感，特别是对于输入扰动的删除尤其受影响。

Jan, 2022

使用随机扰动减缓情感分析模型的对抗攻击

本文介绍了使用随机扰动来对抗深度学习模型的攻击的解决方案，包括随机拼写纠正、随机同义词替换和随机删除单词等防御方法。这些方法成功地将被攻击的模型的准确性恢复到攻击之前的水平。

Feb, 2022

人性化机器生成内容：通过对抗性攻击规避 AI 文本检测

在本文中，我们提出了一个针对更广泛的对抗性攻击类别的框架，旨在对机器生成的内容进行微小扰动以逃避检测，通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现，现有的检测模型可以在仅 10 秒内受到破坏，将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进，但实际应用仍面临重大挑战，这些发现为 AI 文本检测器的未来发展提供了启示，强调了对更准确和鲁棒的检测方法的需求。

Apr, 2024

ToxiGen：一个大规模机器生成的用于对抗和隐式仇恨言论检测的数据集

本论文介绍了 ToxiGen，一个新的大规模自动生成的 274k 毒性和良性陈述数据集，用于检测涉及 13 个少数群体的文本。通过使用基于展示的提示框架和诱导循环解码方法来生成微妙的毒性和良性文本，ToxiGen 能够覆盖范围更广的暗含毒性文本，包括更多样化的人口群体。与此同时，研究者通过人类评估表明，94.5％的毒性示例被人类标注者标记为仇恨言论。合理的数据利用对文本分类器的提高有积极的作用。

Mar, 2022

噪声自训练与数据扩增在冒犯与仇恨言论检测任务中的应用

在线社交媒体存在大量冒犯和仇恨言论，为了解决这个问题，需要自动检测这些言论，而手动标注高质量的数据集困难且花费高。本研究探讨了使用自我训练方法和文本数据增强技术来提高训练数据量和模型鲁棒性的效果，在两个冒犯和仇恨言论数据集上进行实验证明了自我训练方法能一致提升性能，但噪声引入的文本数据增强技术会降低性能。

Jul, 2023