SHIELD: 用随机多专家修补程序防御文本神经网络遭受多种黑盒对抗攻击

ACLNov, 2020

SHIELD: 用随机多专家修补程序防御文本神经网络遭受多种黑盒对抗攻击

SHIELD: Defending Textual Neural Networks against Multiple Black-Box Adversarial Attacks with Stochastic Multi-Expert Patcher

PDF

Thai Le, Noseong Park, Dongwon Lee

TL;DR提出一种名为 SHIELD 的算法，将文本神经网络的最后一层进行修改和重新训练，形成一种加权多专家预测头的随机加权集合，从而混淆攻击者并进一步提高模型准确率。

Abstract

Even though several methods have proposed to defend textual neural network (NN) models against black-box adversarial attacks, they often defend against a specific text perturbation strategy and/or require re-training the models from scratch. This leads to a lack of generalization in pr

textual neural network models adversarial attacks shield algorithm stochastic weighted ensemble black-box attacks

发现论文，激发创造

不同威胁模型下 SHIELD 的效能

本文评估用于对抗敌对攻击的压缩式防御框架 SHIELD 的效力，并在原有工作的基础上考虑了替代威胁模型，提出了具有不同危险程度的情况，并通过实验结果得出了在白盒和灰盒情景下训练模型的相关性与承受目标攻击成功率的相关性，证明了从零开始训练模型的更强鲁棒性。

Feb, 2019

TextShield: 文本分类中超越成功检测攻击性句子

TextShield 是一种基于显著性信息的检测器和修正器相结合的文本防御方法，可以有效检测和转换输入文本中的对抗性语句。实验表明，TextShield 比同类方法具有更高的性能和更好的检测精度。

Feb, 2023

不必担心小事，将其分类：样本屏蔽以保护文本分类器免受对抗性攻击

本文提出了一种新颖的文本分类防御策略 Sample Shielding。该方法在不需要重新配置分类器或外部资源的情况下，对三种流行的深度学习文本分类器进行防御攻击，并在三个数据集中测试其鲁棒性。通过样本选择和分类来实现决策，避免了现有防御策略的关键漏洞。

May, 2022

Shield: 采用 JPEG 压缩的快速实用的深度学习防御和疫苗

本研究提出了一个名为 Shield 的防御框架，利用 JPEG 压缩和不同压缩级别生成多个被疫苗化的模型来加固深度神经网络模型并保护其免受外部攻击。实验结果表明，Shield 在抵御最新、最强攻击方面的表现优异，能够消除高达 94% 的黑箱攻击和 98% 的灰箱攻击。

Feb, 2018

像人类一样进行文本处理：对自然语言处理系统进行视觉攻击和防御

本篇研究探讨了将文本进行视觉篡改后对 NLP 系统的攻击方法，在字符级别、单词级别和句子级别的任务中，神经模型和非神经模型的性能都会降低高达 82%，并研究了三种防御方法 —— 视觉字符嵌入、对抗性训练、基于规则的恢复 —— 这些方法可显著提高模型的鲁棒性，但与攻击未发生时的性能相比仍有一定差距。

Mar, 2019

SHIELD: 阻止代码署名归属

本文介绍了 SHIELD，对六种当前最先进的作者归属方法进行攻击后的实验，通过在 Google Code Jam 竞赛中利用 200 个编程者数据集，从非有目标攻击和有目标攻击两个方向对不同的代码归属提取技术进行了实验，发现现有的作者归属方法对抗攻击的脆弱性，并对攻击成功率和身份识别信任度的影响进行了分析。

Apr, 2023

通过扰动修复对抗性文本

提出了一种通过多种敌对扰动方法修复文本，使神经网络能够正确分类的方法，经实验证明，该方法可对约 80％的文本进行修复，并且取决于使用的扰动方法，平均修复一条文本的时间仅需一秒。

Dec, 2021

AdaShield: 通过自适应护盾提示保护多模态大语言模型免受基于结构的攻击

提出了一种名为 AdaShield 的方法，通过在输入前添加防御提示来防御结构性越狱攻击，无需对 MLLMs 进行微调或训练额外的模块，并通过广泛实验证明了该方法可以提高 MLLMs 对结构性越狱攻击的鲁棒性。

Mar, 2024

重新构建和集成：探索防御文本对抗的方法

提出 “Rebuild and Ensemble Framework” 方法用于针对自然语言处理任务中的对抗攻击，通过重新构建机制训练鲁棒性模型，并在推理期间集成已重新构建的文本以实现对抗性防御。实验证明，该方法能够提高在目前强对抗攻击方法下的准确性。

Mar, 2022

利用多个加密修补嵌入阻碍对抗性攻击

我们提出了一种新的基于关键词的防御方法，注重效率和鲁棒性，在大型数据集如 ImageNet 上的有效训练非常困难。该防御方法通过效率训练和可选随机化的两个重要改进来构建，以一个或多个秘密的补丁嵌入和分类器头与预训练的各向同性网络相结合，实现对已知攻击的高鲁棒性和可比较的净准确性。

Sep, 2023