基于 Transformer 的语言模型的梯度攻击

EMNLPMar, 2021

基于 Transformer 的语言模型的梯度攻击

TAG: Gradient Attack on Transformer-based Language Models

Jieren Deng, Yijue Wang, Ji Li, Chao Shang, Hang Liu...

TL;DR该研究首次针对 Transformer 的语言模型提出了梯度攻击问题，并提出了一个梯度攻击算法（TAG），该算法在 reconstructing training data 方面的效率得到了较大提高，表现出在 CoLA 数据集上攻击梯度，可以获得高达 90% 的数据，并且在大型模型、小型字典大小和小输入长度上具有更强的对手优势，旨在为 Transformer 的 NLP 模型中的隐私泄漏问题提供解决方案。

Abstract

Although federated learning has increasingly gained attention in terms of effectively utilizing local devices for data privacy enhancement, recent studies show that publicly shared gradients in the training process can reveal the private training images (→

federated learning gradient leakage transformer-based language models attack algorithm privacy leakage

发现论文，激发创造

Transformer 中梯度泄漏的攻击和防御的理论洞察

梯度泄漏攻击与防御策略的全面分析，为基于变压器模型的隐私保护技术的发展做出了积极贡献，旨在促进保护敏感数据和在变压器模型背景下维护隐私的进展。

Nov, 2023

透过树木看到森林：部分变压器梯度的数据泄漏

分布式机器学习中的梯度反演攻击问题及其对隐私数据的泄露风险进行研究和验证，并发现在语言模型的各个中间层存在训练数据泄露的漏洞。实验证实，单个 Transformer 层甚至一个线性组件的 0.54% 参数的梯度也存在训练数据泄露的问题。此外，研究还表明，在训练过程中对梯度应用差分隐私仅能提供有限的数据泄露保护。

Jun, 2024

基于梯度的对抗攻击：针对文本转换器

本文提出了首个基于梯度的通用攻击转换器模型算法，通过搜索由连续矩阵参数化的对抗性样本分布实现梯度优化，并在各种自然语言任务中证明其白盒攻击表现的最先进性。此外，本文还展示使用对对抗分布进行采样实现的强大黑盒转移攻击匹配或超越现有方法，而仅需要硬标签输出。

Apr, 2021

Decepticons：损坏变形金刚在语言模型联邦学习中侵犯隐私

提出了一种攻击机制可在 Federated Learning 中，通过恶意参数向量直接攻击文本应用程序，利用 Transformer 架构和标记嵌入技术提取标记和位置嵌入来检索高保真文本，使得历史上抵抗隐私攻击的文本 Federated Learning 变得比以前更加脆弱。

Jan, 2022

APRIL: 针对视觉 Transformer 隐私泄漏的阿喀琉斯之踵的发现

本文分析了基于自注意力机制的 Transformer 模型的梯度泄漏风险，提出 APRIL- Attention PRIvacy Leakage，强调设计隐私安全的 Transformer 模型和防御方案的重要性。

Dec, 2021

DAGER：大型语言模型的精确梯度反转

DAGER 是一种用于恢复文本数据批的算法，通过利用 self-attention 层的梯度的低秩结构和标记嵌入的离散性质，以精确的方式恢复整个批次的输入文本数据，用于编码器和解码器架构，并在实验中表现出超过 0.99 的 ROUGE-1/2，速度比之前的攻击快了 20 倍，并且在可扩展性上可以处理 10 倍以上的批大小。

May, 2024

联邦学习语言模型中的私有文本恢复

本文介绍了一种新颖的攻击方法 FILM，用于联邦学习过程中语言模型的训练，成功恢复单句和多句的私有文本数据，并讨论了三种防御方法。

May, 2022

在联邦学习中利用语言模型的汇聚层输入：超越梯度和先验的隐私攻击

该研究通过增强攻击方法，在不同批次大小和模型上持续超越之前的最先进结果，提高文本分类任务中的隐私攻击恢复率。

Dec, 2023

针对基于 Transformer 的文本分类器的块状稀疏对抗攻击

本文提出了一种基于梯度的对抗攻击方法，应用于基于 Transformer 的文本分类器中，实验结果表明，该攻击能够在保留句子语义的同时，对不同数据集上的 GPT-2 分类器准确率进行有效降低，通过对优化问题进行块稀疏约束，实现了对抗向量的小幅扰动。

Mar, 2022

神经网络图像分类中的梯度泄露训练数据理解

本文分析了基于梯度下降的攻击如何泄露深度学习模型的训练数据，并提出了一种度量安全性的指标，同时也提出了一种用于解决重构训练数据的优化问题的方法。

Nov, 2021