攻击神经文本检测器

ICLRFeb, 2020

Attacking Neural Text Detectors

Max Wolff, Stuart Wolff

TL;DR本文介绍了两种黑匣子攻击方法，一种是将字符随机替换为了形似字，另一种是故意拼错单词，受攻击的神经文本检测器从 97.44％降至 0.26％和 22.68％，攻击也可转移至其他文本检测器。

Abstract

machine learning based language models have recently made significant progress, which introduces a danger to spread misinformation. To com

machine learning language models misinformation text detection black-box attacks

发现论文，激发创造

神经文本检测器的高效黑盒对抗攻击

通过调整参数、优化提示语和进行字符级别的变异，我们研究了改变 GPT-3.5 生成的文本的三种简单且资源高效的策略，这些策略在人类不会察觉但能使神经文本检测器误分类的文本中特别有效。

Nov, 2023

基于突变的神经文本检测器对抗攻击

本论文提出了基于字符和词语的变异操作方法，用于生成对抗样本以攻击最先进的自然文本检测器，从而逐渐减少机器学习模型和分类器的预测准确性。

Feb, 2023

利用同形异义字规避 AI 生成的内容检测器

本研究通过分析同形异义字如何转移文本的记号化和标记的对数似然值，对比了现有大语言模型检测器在五个不同数据集上与同形异义字攻击的有效性，发现同形异义字攻击可以有效躲避现有的大语言模型检测器，讨论了这些发现的影响以及可能的防御方法。

Jun, 2024

人性化机器生成内容：通过对抗性攻击规避 AI 文本检测

在本文中，我们提出了一个针对更广泛的对抗性攻击类别的框架，旨在对机器生成的内容进行微小扰动以逃避检测，通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现，现有的检测模型可以在仅 10 秒内受到破坏，将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进，但实际应用仍面临重大挑战，这些发现为 AI 文本检测器的未来发展提供了启示，强调了对更准确和鲁棒的检测方法的需求。

Apr, 2024

不可察觉的自然语言处理攻击

本研究探索了一种新的文本诱骗攻击方式，使用对人眼不可见的编码特定干扰，攻击了广泛应用于神经机器翻译和网络搜索引擎等自然语言处理系统的文本模型，破坏了系统的性能，提出了输入净化的需求。

Jun, 2021

将文字塞入系统嘴中：使用单语数据攻击神经机器翻译的有针对性攻击

该研究表明，神经机器翻译系统不仅容易受到对抗性测试输入的攻击，而且容易受到训练攻击的影响，作者提出了一种毒化攻击方法，插入带有误导性的毒化样本，从而在神经机器翻译系统训练中引起指定的翻译行为，本文提出了防御方法，但仍需要紧急关注。

Jul, 2021

使用语言模型对抗语言模型检测器

本文研究了如何攻击已有的机器文字生成检测算法，并验证了所有被测试的检测器的鲁棒性。结果表明，开发更加鲁棒的机器文字检测系统有着迫切的需求。

May, 2023

利用文化偏见在文本到图像合成中的同形字攻击

通过在文本描述中插入单个非拉丁字符，我们展示了普通模型如何反映文化刻板印象和偏见。我们定性和定量分析了这种行为，并将其归因于模型的文本编码器。此外，我们提出了一种新颖的同形学习方法，通过微调文本编码器，使其能够抵抗同形符号的操纵.

Sep, 2022

像人类一样进行文本处理：对自然语言处理系统进行视觉攻击和防御

本篇研究探讨了将文本进行视觉篡改后对 NLP 系统的攻击方法，在字符级别、单词级别和句子级别的任务中，神经模型和非神经模型的性能都会降低高达 82%，并研究了三种防御方法 —— 视觉字符嵌入、对抗性训练、基于规则的恢复 —— 这些方法可显著提高模型的鲁棒性，但与攻击未发生时的性能相比仍有一定差距。

Mar, 2019

人类中心语言模型中的隐藏后门

本文提出通过嵌入本质隐形且难以检测的触发器进行的 NLP 背门攻击，该攻击能超过多项 NLP 任务，例如有害评论检测，机器翻译和问答系统，能在维持正常使用的正常用户的同时，在不经意间实施高成功率的攻击。

May, 2021