利用后门维护我们的隐私
利用小型专用数据集微调大型预训练模型来生成特定应用模型是常见的做法。然而,我们揭示了一种新的漏洞:隐私后门攻击,通过该攻击,在微调受后门影响的模型时,训练数据的隐私泄露率会显著增加。我们在不同数据集和模型上进行了大量实验证明了这种攻击的广泛适用性和有效性,并通过不同微调方法和推断策略进行了多次消融研究以全面分析这个新威胁。我们的发现突出了机器学习社区的重要隐私问题,并呼吁重新评估使用开源预训练模型的安全协议。
Apr, 2024
预训练机器学习模型存在隐私后门的风险,攻击者能够通过篡改权重完全破坏微调数据的隐私。我们展示了如何为各种模型(包括 transformers)构建隐私后门,进而成功重构个体微调样本。此外,我们还展示了被注入后门的模型能够对使用差分隐私训练的模型进行隐私攻击。因此,如果模型不受信任,使用宽松隐私保证进行差分隐私模型训练的常见乐观实践是不安全的。总的来说,我们的工作突出了对机器学习隐私的一种关键而被忽视的供应链攻击。
Mar, 2024
通过对大规模网络整理的数据进行预训练,我们发现使用简单的预训练目标更有利于有效消除后门攻击,这对于使用强预训练目标与反后门攻击之间权衡的从业者至关重要。
Nov, 2023
本文综述了深度学习在自然语言处理中的应用,分析了训练数据和模型面临的公开风险,着重探讨了后门攻击的前沿进展及其防御对策,并总结了基准数据集及其存在的问题,旨在设计更可靠的系统以保护模型安全。
Nov, 2022
本文提出了一种新的方法应对数据受限的后门攻击,使用预训练的 CLIP 模型并引入了基于 “干净特征抑制” 和 “污染特征增强” 两大技术来有效地操纵模型的行为,实验表明该方法可显着提高攻击成功率。
Jun, 2023
本研究提出了针对 NLP 模型的 “自然后门攻击”,对文本数据进行触发器生成,并研究了不同类型的触发器,最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。
Jun, 2020
本文提出了一种新的方法,将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示,而不是目标标签,从而可以将后门引入广泛的下游任务中,而无需任何先前的知识,通过各种触发器类型的实验,论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型(如 BERT、XLNet、BART)是普适的,并且不可避免地引入了严重威胁。
Oct, 2021
研究人员提出了一种新的方法,通过破坏模型训练代码中的损失值计算来注入后门,用于展示比以前文献中更强大的后门类型,包括单像素和物理后门以及能将模型转换为隐蔽,侵犯隐私任务的后门,同时无需修改推理时输入。攻击是盲目的:攻击者无法修改训练数据,也无法观察他的代码执行,也无法访问生成的模型。攻击代码在模型训练过程中即时生成受污染的训练输入,并使用多目标优化技术来实现对主任务和后门任务的高准确性。研究人员还提出了如何规避任何已知防御措施的盲目攻击,并提出了新的防御措施。
May, 2020
利用密码学技术,我们研究了机器学习模型中潜在的不可检测的后门问题,探索了外部专家公司设计模型中的潜在威胁,并引入了隐写功能来扩展神经网络后门攻击到语言模型中。
Jun, 2024