预训练模型的权重污染攻击

ACLApr, 2020

Weight Poisoning Attacks on Pre-trained Models

Keita Kurita, Paul Michel, Graham Neubig

TL;DR该研究重点讨论了使用大型预先训练模型的安全风险，提出了一种称为 RIPPLe 的正则化方法和一种称为嵌入手术的初始化方法，以防止称为权重污染的攻击，该攻击可以注入安全漏洞。进一步实验证明该攻击可能性很高，对多种应用都带来了严重威胁。

Abstract

Recently, nlp has seen a surge in the usage of large pre-trained models. Users download weights of models pre-trained on large datasets, then fine-tune the weights on a task of their choice. This raises the quest

nlp pre-trained models weight poisoning attacks ripple model manipulation

发现论文，激发创造

通过逐层权值污染对预训练模型进行后门攻击

本文提出一种更强的权重污染攻击方法，引入逐层权重污染策略以种植更深层次的后门；我们还引入一种组合式触发器，不能轻易检测。实验表明，以前的防御方法无法抵抗我们的权重污染方法，这表明我们的方法可以被广泛应用，并为未来的模型鲁棒性研究提供线索。

Aug, 2021

谨防中毒词嵌入：探究 NLP 模型嵌入层的漏洞

该论文揭示了自然语言处理（NLP）模型的安全威胁，即后门攻击。通过修改一个单词嵌入向量，攻击者可以在没有损失准确率的情况下破坏模型的行为，同时引发了一个特定的触发词。实验结果表明，该方法更高效、更隐秘，可提高 NLP 模型的安全意识。

Mar, 2021

隐私后门：通过已被污染的预训练模型窃取数据

预训练机器学习模型存在隐私后门的风险，攻击者能够通过篡改权重完全破坏微调数据的隐私。我们展示了如何为各种模型（包括 transformers）构建隐私后门，进而成功重构个体微调样本。此外，我们还展示了被注入后门的模型能够对使用差分隐私训练的模型进行隐私攻击。因此，如果模型不受信任，使用宽松隐私保证进行差分隐私模型训练的常见乐观实践是不安全的。总的来说，我们的工作突出了对机器学习隐私的一种关键而被忽视的供应链攻击。

Mar, 2024

隐私后门：通过污染预训练模型增强成员推断

利用小型专用数据集微调大型预训练模型来生成特定应用模型是常见的做法。然而，我们揭示了一种新的漏洞：隐私后门攻击，通过该攻击，在微调受后门影响的模型时，训练数据的隐私泄露率会显著增加。我们在不同数据集和模型上进行了大量实验证明了这种攻击的广泛适用性和有效性，并通过不同微调方法和推断策略进行了多次消融研究以全面分析这个新威胁。我们的发现突出了机器学习社区的重要隐私问题，并呼吁重新评估使用开源预训练模型的安全协议。

Apr, 2024

自然语言处理模型中的隐蔽数据毒化攻击

本研究开发了一种新的数据污染攻击方法，能够在训练数据中插入少量样本并控制模型预测结果，其中包含一个特定的强制词，同时提出了三种缓解该攻击的防御策略。

Oct, 2020

预训练特征提取器的不可区分数据毒化攻击

在这篇论文中，我们研究了预训练特征提取器应用于后续任务时的数据污染攻击，主要包括输入空间攻击和特征目标攻击两种类型，实验结果表明后者对迁移学习更具威胁性。

Feb, 2024

强制生成模型退化：数据注毒攻击的力量

通过细粒度的实验，我们展示了在大语言模型的精调阶段仅仅使用总数据样本的 1% 即可成功地对大语言模型进行毒化，这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。

Dec, 2023

卷积神经网络模型中的后门嵌入：通过不可见扰动

本文介绍了一种特定类型的数据投毒攻击，即后门注入攻击，讨论了攻击者注入后门到深度学习模型中的方法，并提出了两种在不削弱受害者模型有效性的情况下，难以察觉但能实现模型毒化的后门生成方法。我们进行了广泛的实验评估，并证明即使在最弱的攻击者模型下，这种攻击可以在小的注入率（约为 1％）条件下实现高达 90％以上的攻击成功率。

Aug, 2018

Fine-mixing: 缓解精调语言模型中的后门问题

本文提出了利用预先训练的权重来缓解 Fine-tuning 语言模型中后门攻击的技术，即 Fine-mixing 和 Embedding Purification，通过三个单句情感分类任务和两个句对分类任务的实验表明，它们的性能优于现有的后门缓解方法，并为安全 Fine-tuned NLP 模型提供了一个基线防御。

Oct, 2022

真相血清：毒化机器学习模型揭示它们的秘密

介绍了一种新的针对机器学习模型的攻击方式，即通过污染训练数据集，导致模型泄露属于其他用户的私人数据。该攻击包括成员推断、属性推断和数据提取等多方面，可能会危及多方面的用户隐私。

Mar, 2022