模型提取和对抗迁移，您的 BERT 有漏洞了！

ACLMar, 2021

模型提取和对抗迁移，您的 BERT 有漏洞了！

Model Extraction and Adversarial Transferability, Your BERT is Vulnerable!

Xuanli He, Lingjuan Lyu, Qiongkai Xu, Lichao Sun

TL;DR本文主要研究了如何对 BERT 模型进行攻击，提出了对受害模型进行攻击并窃取模型的攻击方法，以及如何抵御此类攻击的两种防御策略。

Abstract

natural language processing (NLP) tasks, ranging from text classification to text generation, have been revolutionised by the pre-trained language models, such as →

natural language processing pre-trained language models bert adversarial attacks defence strategies

发现论文，激发创造

Sesame Street 上的盗贼！BERT-based API 的模型提取

该研究探讨了自然语言处理中模型提取的问题，结果表明，在具有查询访问权限的情况下，攻击者可以使用任意的打乱语序的字串以及特定启发式方法从模型中提取出相应模型的本地副本，通过使用预先训练好的 NLP 模型，使用转移学习的方法，他们在各种类型的 NLP 任务上展现出了攻击的有效性。而防范措施则徒劳无功。

Oct, 2019

语义隐身：多种方法对 NLP 的对抗文本攻击

在本文中，通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索，利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析，发现 PWWS 攻击是最强大的对手，在多个评估场景中始终优于其他方法，从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验，评估了这些攻击的性能，并发现 PWWS 攻击优于其他方法，具有更低的运行时间、更高的准确性和更好的语义相似度得分，这是这篇论文的关键见解。

Apr, 2024

通过手工制作的对抗性例子评估预训练语言模型的容易受攻击性

本文探讨了最新的预训练语言模型（PLMs），包括 GPT-3 和 BERT，存在安全漏洞，使其容易受到对抗性攻击的影响，并提出了一种有效的对抗方法来测试模型的语义相似性并减少其分类质量。

Sep, 2022

学生超越老师：基于模仿的黑盒自然语言处理 API 攻击

利用无监督域适应和多受害者集成的方法，攻击者可能会在 NLP API 中超越原始黑盒模型，这是对模型提取以前的理解的超越，验证结果表明模仿者可以在转移领域中成功地胜过原始的黑盒模型，这将影响 API 提供者的防御或发布策略。

Aug, 2021

机器学习中的可迁移性：从现象到黑盒攻击利用对抗样本

对机器学习模型的黑盒攻击是可能的，即使它们的结构不同。通过生成对抗性样本，并利用受害者模型标记合成训练集，攻击者可以训练出自己的替代模型，并将对抗性样本转移到受害者模型中实施攻击，该方法可以使用新的技术使攻击过程更加有效率，在 Amazon 和 Google 等公司的商业机器学习分类系统中展示了攻击的有效性。

May, 2016

透过 Adapter 实现基于预训练语言模型的强大迁移学习

本文提出了一种简单而有效的适配器方法来提高预训练模型在下游任务的稳定性和抗攻击性。该方法为预训练模型的每层插入小型的瓶颈层，然后在下游任务数据上固定预训练层并训练适配器层，通过在任务特定的无监督训练和监督训练 (e.g., 分类、序列标注) 的过程中，提高了转移学习的性能。

Aug, 2021

基于 Transformer 的对抗攻击在安全领域中的有效性

评估了变压器对系统防御者的恶意样本的强健性以及对系统攻击者的对抗性样本的可迁移性，发现变压器所生成的对抗样本具有最高的可迁移率，对其他模型具有更强的对抗性，强调了研究在安全领域中使用变压器架构进行攻击和防御的重要性，并建议将其作为转移攻击设置中的主要架构。

Oct, 2023

朝着更现实的提取攻击：一种对抗性视角

利用对语言模型的脆弱性，我们从对抗性的角度重新审视了提取攻击，发现即使对提示进行微小、不符合直觉的更改，或者针对较小的模型和旧的检查点，也可以将提取风险增加 2-4 倍。此外，仅依赖广泛接受的逐字匹配低估了提取信息的真实范围，我们提供了其他准确捕捉提取风险的方法。我们总结了数据去重，这是一种常见的缓解策略，并发现它虽然解决了一些记忆问题，但仍对真实的对手提取风险的升级具有脆弱性。我们的发现凸显了认识对手的真实能力以避免低估提取风险的必要性。

Jul, 2024

BERT 在自然语言攻击上真的很强吗？文本分类和蕴含的强基准线

本文提出一种简单却强大的文本对抗生成基准，名为 TextFooler. 在两个自然语言任务中将其应用，成功攻击了三个目标模型，包括强大的预训练 BERT 和广泛使用的卷积和循环神经网络。该框架具备以下三个优点：有效性，实用性和高效性。

Jul, 2019

BERT-ATTACK: 使用 BERT 对抗 BERT 的对抗攻击

本文提出了使用 BERT 预训练模型的高质量有效的方法 BERT-Attack，用于生成对抗样本并在对下游任务的深度神经模型进行攻击。在成功率和扰动百分比方面，我们的方法优于最先进的攻击策略，而生成的对抗样本则流畅且在语义上保留，且计算成本低，可用于大规模产生。

Apr, 2020