像人类一样进行文本处理：对自然语言处理系统进行视觉攻击和防御

MMMar, 2019

像人类一样进行文本处理：对自然语言处理系统进行视觉攻击和防御

Text Processing Like Humans Do: Visually Attacking and Shielding NLP Systems

Steffen Eger, Gözde Gül Şahin, Andreas Rücklé, Ji-Ung Lee, Claudia Schulz...

TL;DR本篇研究探讨了将文本进行视觉篡改后对 NLP 系统的攻击方法，在字符级别、单词级别和句子级别的任务中，神经模型和非神经模型的性能都会降低高达 82%，并研究了三种防御方法 —— 视觉字符嵌入、对抗性训练、基于规则的恢复 —— 这些方法可显著提高模型的鲁棒性，但与攻击未发生时的性能相比仍有一定差距。

Abstract

visual modifications to text are often used to obfuscate offensive comments in social media (e.g., "!d10t") or as a writing style ("1337" in "leet speak"), among other scenarios. We consider this as a new type of advers

adversarial attack nlp system visual modifications shielding methods performance decrease

发现论文，激发创造

不可察觉的自然语言处理攻击

本研究探索了一种新的文本诱骗攻击方式，使用对人眼不可见的编码特定干扰，攻击了广泛应用于神经机器翻译和网络搜索引擎等自然语言处理系统的文本模型，破坏了系统的性能，提出了输入净化的需求。

Jun, 2021

人类如何感知对抗文本？关于基于单词的对抗攻击的有效性和自然性的现实检验

对基于机器学习的自然语言处理模型的对抗攻击存在诸多问题，本研究通过对 378 个人的实验调查，发现现有文本攻击在需要人类参与的实际场景中是不切实际的，从而得出应该把人类的感知度作为文本攻击的首要成功标准。

May, 2023

当视觉失败：对 ViT 和 OCR 的文本攻击

本文探讨了基于文字的机器学习模型对视觉输入的抵抗力，并表明他们仍然容易受到以文本编码的视觉对抗性示例的攻击，使用 Unicode 功能组合变音符号来操纵编码文本，演示使用遗传算法生成黑盒威胁视觉对抗性示例的效力，并进行用户研究以证明这些模型欺骗性示例不会影响人类理解。最后，通过制造针对 Facebook，Microsoft，IBM 和 Google 发布的生产模型的对抗性示例，展示了这些攻击的实际效果。

Jun, 2023

基于数据驱动的对抗文本扰动缓解

本文提出了一种使用 deobfuscation 和 CW2V 嵌入的强健分类管道，用于检测 Facebook 帖子是否请求参与（例如点赞）。在针对有意和无意的对抗文本扰动方面，CW2V 嵌入的强健性优于基于字符 ngram 的嵌入，其分类结果在扰动下的 AUC 从 0.70 降至 0.67，而字符 ngram 嵌入的分类结果从 0.76 降至 0.64。

Feb, 2022

语义隐身：多种方法对 NLP 的对抗文本攻击

在本文中，通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索，利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析，发现 PWWS 攻击是最强大的对手，在多个评估场景中始终优于其他方法，从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验，评估了这些攻击的性能，并发现 PWWS 攻击优于其他方法，具有更低的运行时间、更高的准确性和更好的语义相似度得分，这是这篇论文的关键见解。

Apr, 2024

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

人性化机器生成内容：通过对抗性攻击规避 AI 文本检测

在本文中，我们提出了一个针对更广泛的对抗性攻击类别的框架，旨在对机器生成的内容进行微小扰动以逃避检测，通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现，现有的检测模型可以在仅 10 秒内受到破坏，将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进，但实际应用仍面临重大挑战，这些发现为 AI 文本检测器的未来发展提供了启示，强调了对更准确和鲁棒的检测方法的需求。

Apr, 2024

文本隐私保护神经表示

本文主要研究基于深度学习自然语言处理中的对抗攻击，探讨攻击者如何通过窃取神经网络文本分类器的隐藏表示来获取敏感信息，为解决此问题，文章提出并论证多个防御方案，改进神经表示的隐私保护性能。

Aug, 2018

自然语言处理中对抗性防御和鲁棒性的调查

综述了最近几年针对 NLP 中深度神经网络面对对抗干扰的鲁棒性不足和易受攻击的挑战，提出了一种新的分类方法，介绍了不同的对抗防御方法和其在训练中作为正则化机制的应用，并指出了深度神经网络的脆弱性和对其进行防御面临的挑战。

Mar, 2022

攻击神经文本检测器

本文介绍了两种黑匣子攻击方法，一种是将字符随机替换为了形似字，另一种是故意拼错单词，受攻击的神经文本检测器从 97.44％降至 0.26％和 22.68％，攻击也可转移至其他文本检测器。

Feb, 2020