利用后门维护我们的隐私

Oct, 2023

Defending Our Privacy With Backdoors

Dominik Hintersdorf, Lukas Struppek, Daniel Neider, Kristian Kersting

TL;DR通过插入后门，我们提出了一种简单而有效的防御方法，以消除模型中的私人信息，特别是在文本编码器中，从而增强不经过过滤的网络爬取数据上的个人隐私。

Abstract

The proliferation of large ai models trained on uncurated, often sensitive web-scraped data has raised significant privacy concerns. One of the concerns is that adversaries can extract information about the train

ai models privacy concerns privacy attacks backdoor attacks uncurated web-scraped data

发现论文，激发创造

隐私后门：通过污染预训练模型增强成员推断

利用小型专用数据集微调大型预训练模型来生成特定应用模型是常见的做法。然而，我们揭示了一种新的漏洞：隐私后门攻击，通过该攻击，在微调受后门影响的模型时，训练数据的隐私泄露率会显著增加。我们在不同数据集和模型上进行了大量实验证明了这种攻击的广泛适用性和有效性，并通过不同微调方法和推断策略进行了多次消融研究以全面分析这个新威胁。我们的发现突出了机器学习社区的重要隐私问题，并呼吁重新评估使用开源预训练模型的安全协议。

Apr, 2024

隐私后门：通过已被污染的预训练模型窃取数据

预训练机器学习模型存在隐私后门的风险，攻击者能够通过篡改权重完全破坏微调数据的隐私。我们展示了如何为各种模型（包括 transformers）构建隐私后门，进而成功重构个体微调样本。此外，我们还展示了被注入后门的模型能够对使用差分隐私训练的模型进行隐私攻击。因此，如果模型不受信任，使用宽松隐私保证进行差分隐私模型训练的常见乐观实践是不安全的。总的来说，我们的工作突出了对机器学习隐私的一种关键而被忽视的供应链攻击。

Mar, 2024

有效的后门缓解取决于预训练目标

通过对大规模网络整理的数据进行预训练，我们发现使用简单的预训练目标更有利于有效消除后门攻击，这对于使用强预训练目标与反后门攻击之间权衡的从业者至关重要。

Nov, 2023

自然语言处理中后门攻击与防御的调查

本文综述了深度学习在自然语言处理中的应用，分析了训练数据和模型面临的公开风险，着重探讨了后门攻击的前沿进展及其防御对策，并总结了基准数据集及其存在的问题，旨在设计更可靠的系统以保护模型安全。

Nov, 2022

深度文本分类器中后门的检测

本研究介绍一种新的深度学习技术，可用于抵御针对文本分类模型的后门攻击，能够无需访问攻击类型和训练资源的情况下自我防御并具有高准确性。

Oct, 2022

深度神经网络实际应用中的高效后门攻击

本文提出了一种新的方法应对数据受限的后门攻击，使用预训练的 CLIP 模型并引入了基于 “干净特征抑制” 和 “污染特征增强” 两大技术来有效地操纵模型的行为，实验表明该方法可显着提高攻击成功率。

Jun, 2023

文本数据的自然后门攻击

本研究提出了针对 NLP 模型的 “自然后门攻击”，对文本数据进行触发器生成，并研究了不同类型的触发器，最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。

Jun, 2020

预训练模型的后门可以转移到所有模型

本文提出了一种新的方法，将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示，而不是目标标签，从而可以将后门引入广泛的下游任务中，而无需任何先前的知识，通过各种触发器类型的实验，论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型（如 BERT、XLNet、BART）是普适的，并且不可避免地引入了严重威胁。

Oct, 2021

深度学习模型中的盲后门

研究人员提出了一种新的方法，通过破坏模型训练代码中的损失值计算来注入后门，用于展示比以前文献中更强大的后门类型，包括单像素和物理后门以及能将模型转换为隐蔽，侵犯隐私任务的后门，同时无需修改推理时输入。攻击是盲目的：攻击者无法修改训练数据，也无法观察他的代码执行，也无法访问生成的模型。攻击代码在模型训练过程中即时生成受污染的训练输入，并使用多目标优化技术来实现对主任务和后门任务的高准确性。研究人员还提出了如何规避任何已知防御措施的盲目攻击，并提出了新的防御措施。

May, 2020

深度学习和语言模型中注入无法检测到的后门

利用密码学技术，我们研究了机器学习模型中潜在的不可检测的后门问题，探索了外部专家公司设计模型中的潜在威胁，并引入了隐写功能来扩展神经网络后门攻击到语言模型中。

Jun, 2024