分类器解构：针对文本分类模型的数据重构攻击

Jun, 2023

分类器解构：针对文本分类模型的数据重构攻击

Deconstructing Classifiers: Towards A Data Reconstruction Attack Against Text Classification Models

Adel Elmahdy, Ahmed Salem

TL;DR本文提出了一种名为 Mix And Match 的新型有针对性数据重构攻击，强调了考虑分类模型中的数据重构攻击与隐私风险的重要性，并提供了有关可能泄漏的见解。

Abstract

natural language processing (NLP) models have become increasingly popular in real-world applications, such as text classification. However, they are vulnerable to privacy attacks, including →

natural language processing nlp models privacy attacks data reconstruction attacks classification models

发现论文，激发创造

文本分类中的隐私泄露问题：一种数据提取方法

对于文本分类模型，从生成型语言模型中提取训练数据的可行性存在争议，提出了一种利用模型评价概率的算法来提取部分文本的缺失标记，以研究文本分类能否不小心记忆到与学习任务无关的训练数据并评估未经同意使用个人数据的审计策略。

Jun, 2022

通过令牌操作保护分类器中的隐私

通过文本操作的水平，我们研究了使用语言模型作为远程服务时可能避免数据暴露的前景。我们聚焦于文本分类模型，检查各种令牌映射和上下文操作函数，以确定在保持原始文本不可恢复的同时能否保持分类器准确性。我们发现，尽管有些令牌映射函数容易实现，但它们对下游任务的性能有很大影响，并且通过一个复杂的攻击者可以重建。相比之下，上下文操作提供了性能的改进。

Jul, 2024

机器遗忘的重构攻击：简单模型易受攻击

机器遗忘是出于对数据自治的渴望：一个人可以要求使其数据在部署模型中的影响消失，并且这些模型应该更新，就像重新训练而没有该人的数据一样。然而，我们展示出这些更新与个人之间会暴露出高精度的重构攻击，这使得攻击者可以完整地恢复其数据，即使原始模型如此简单，以至于隐私风险可能不会引起担忧。我们展示了如何对线性回归模型中删除的数据点发起近乎完美的攻击。然后，我们将我们的攻击泛化到其他损失函数和架构，并在范围广泛的数据集上实证证明了我们的攻击的有效性（涵盖表格数据和图像数据）。我们的工作强调了即使对于极其简单的模型类别，当个人可以要求在模型中删除他们的数据时，隐私风险仍然是显著的。

May, 2024

基于信息对手的训练数据重构

研究如何通过反向工程的方法利用少量的反向查询训练数据重建整个机器学习模型，尤其是针对神经网络等更一般的模型，通过实际攻击和差分隐私的方法来防御这种攻击，并探讨其对标准机器学习管道的影响。

Jan, 2022

文本隐私保护神经表示

本文主要研究基于深度学习自然语言处理中的对抗攻击，探讨攻击者如何通过窃取神经网络文本分类器的隐藏表示来获取敏感信息，为解决此问题，文章提出并论证多个防御方案，改进神经表示的隐私保护性能。

Aug, 2018

对无数据先验的对手的边界重建攻击成功性进行限制

通过实验结果，我们在现实场景中提供了差分隐私机器学习模型下重构成功的明确上界，这有助于在不同上下文和度量标准下进行隐私参数的明智选择。

Feb, 2024

数据重构攻击和防御：系统评估

在这项工作中，我们提出了一种针对联邦学习环境中的强力重构攻击，该攻击重构了中间特征，并且与大多数先前的方法相比，集成且表现更好。我们在这种更强力的攻击上进行了深入的理论和实证研究，发现梯度剪裁是针对最先进攻击的最有效策略。

Feb, 2024

利用大型语言模型从隐私保护掩码中恢复

使用大型语言模型，本研究探索了替代标记符的可行性，以保护用户隐私，分析了不同方法的实验结果，在下游语言建模任务中实现了与原始数据训练相媲美的性能。

Sep, 2023

TextDecepter：针对文本分类器的硬标签黑盒攻击

本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法，其中没有模型信息被公开，攻击者只能查询模型以获得分类器的最终决策，该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。

Aug, 2020

文本数据的自然后门攻击

本研究提出了针对 NLP 模型的 “自然后门攻击”，对文本数据进行触发器生成，并研究了不同类型的触发器，最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。

Jun, 2020

分类器解构： 针对文本分类模型的数据重构攻击

分类器解构：针对文本分类模型的数据重构攻击