透过树木看到森林：部分变压器梯度的数据泄漏

Jun, 2024

透过树木看到森林：部分变压器梯度的数据泄漏

Seeing the Forest through the Trees: Data Leakage from Partial Transformer Gradients

Weijun Li, Qiongkai Xu, Mark Dras

TL;DR分布式机器学习中的梯度反演攻击问题及其对隐私数据的泄露风险进行研究和验证，并发现在语言模型的各个中间层存在训练数据泄露的漏洞。实验证实，单个 Transformer 层甚至一个线性组件的 0.54% 参数的梯度也存在训练数据泄露的问题。此外，研究还表明，在训练过程中对梯度应用差分隐私仅能提供有限的数据泄露保护。

Abstract

Recent studies have shown that distributed machine learning is vulnerable to gradient inversion attacks, where private training data can b

distributed machine learning gradient inversion attacks private training data language models training data leakage

发现论文，激发创造

Transformer 中梯度泄漏的攻击和防御的理论洞察

梯度泄漏攻击与防御策略的全面分析，为基于变压器模型的隐私保护技术的发展做出了积极贡献，旨在促进保护敏感数据和在变压器模型背景下维护隐私的进展。

Nov, 2023

神经网络图像分类中的梯度泄露训练数据理解

本文分析了基于梯度下降的攻击如何泄露深度学习模型的训练数据，并提出了一种度量安全性的指标，同时也提出了一种用于解决重构训练数据的优化问题的方法。

Nov, 2021

梯度深度泄露

该论文通过实验证明了在现代多节点机器学习系统中，梯度交换流程中存在着可以泄露隐私数据的问题。作者指出梯度裁剪是当前最有效的解决方案。

Jun, 2019

基于 Transformer 的语言模型的梯度攻击

该研究首次针对 Transformer 的语言模型提出了梯度攻击问题，并提出了一个梯度攻击算法（TAG），该算法在 reconstructing training data 方面的效率得到了较大提高，表现出在 CoLA 数据集上攻击梯度，可以获得高达 90% 的数据，并且在大型模型、小型字典大小和小输入长度上具有更强的对手优势，旨在为 Transformer 的 NLP 模型中的隐私泄漏问题提供解决方案。

Mar, 2021

Decepticons：损坏变形金刚在语言模型联邦学习中侵犯隐私

提出了一种攻击机制可在 Federated Learning 中，通过恶意参数向量直接攻击文本应用程序，利用 Transformer 架构和标记嵌入技术提取标记和位置嵌入来检索高保真文本，使得历史上抵抗隐私攻击的文本 Federated Learning 变得比以前更加脆弱。

Jan, 2022

扩散模型的安全性研究：基于梯度引导的扩散模型导致严重数据泄漏

通过扩散模型并利用梯度指导的微调方法，我们提出了一种新的重建攻击方法，可通过泄露的梯度从图像处理系统中窃取私密的高分辨率图像。实验结果表明，我们的攻击方法能够成功恢复和窃取分辨率高达 512 x 512 像素的图像。此外，我们的攻击方法在图像重建的像素级准确性和时间效率方面明显优于其他攻击基准方法，并在一定程度上使差分隐私失效。

Jun, 2024

APRIL: 针对视觉 Transformer 隐私泄漏的阿喀琉斯之踵的发现

本文分析了基于自注意力机制的 Transformer 模型的梯度泄漏风险，提出 APRIL- Attention PRIvacy Leakage，强调设计隐私安全的 Transformer 模型和防御方案的重要性。

Dec, 2021

隐私后门：通过已被污染的预训练模型窃取数据

预训练机器学习模型存在隐私后门的风险，攻击者能够通过篡改权重完全破坏微调数据的隐私。我们展示了如何为各种模型（包括 transformers）构建隐私后门，进而成功重构个体微调样本。此外，我们还展示了被注入后门的模型能够对使用差分隐私训练的模型进行隐私攻击。因此，如果模型不受信任，使用宽松隐私保证进行差分隐私模型训练的常见乐观实践是不安全的。总的来说，我们的工作突出了对机器学习隐私的一种关键而被忽视的供应链攻击。

Mar, 2024

Dropout 对抗梯度泄漏

本文提出了在分类器前使用额外的 dropout 层的方法来防止原始数据泄露，以解决在 federal learning 和机器学习中的潜在问题。

Aug, 2021

潘多拉的白箱：开放式 LLM 中训练数据泄露的增加

本研究对开源大型语言模型的隐私攻击进行了系统研究，提出了威胁预训练和微调模型的成员推断攻击方法，并展示了近乎完美的攻击效果，强调了在进行高度敏感数据的微调和部署之前应当十分谨慎。

Feb, 2024