分类器解构: 针对文本分类模型的数据重构攻击
对于文本分类模型,从生成型语言模型中提取训练数据的可行性存在争议,提出了一种利用模型评价概率的算法来提取部分文本的缺失标记,以研究文本分类能否不小心记忆到与学习任务无关的训练数据并评估未经同意使用个人数据的审计策略。
Jun, 2022
通过文本操作的水平,我们研究了使用语言模型作为远程服务时可能避免数据暴露的前景。我们聚焦于文本分类模型,检查各种令牌映射和上下文操作函数,以确定在保持原始文本不可恢复的同时能否保持分类器准确性。我们发现,尽管有些令牌映射函数容易实现,但它们对下游任务的性能有很大影响,并且通过一个复杂的攻击者可以重建。相比之下,上下文操作提供了性能的改进。
Jul, 2024
机器遗忘是出于对数据自治的渴望:一个人可以要求使其数据在部署模型中的影响消失,并且这些模型应该更新,就像重新训练而没有该人的数据一样。然而,我们展示出这些更新与个人之间会暴露出高精度的重构攻击,这使得攻击者可以完整地恢复其数据,即使原始模型如此简单,以至于隐私风险可能不会引起担忧。我们展示了如何对线性回归模型中删除的数据点发起近乎完美的攻击。然后,我们将我们的攻击泛化到其他损失函数和架构,并在范围广泛的数据集上实证证明了我们的攻击的有效性(涵盖表格数据和图像数据)。我们的工作强调了即使对于极其简单的模型类别,当个人可以要求在模型中删除他们的数据时,隐私风险仍然是显著的。
May, 2024
研究如何通过反向工程的方法利用少量的反向查询训练数据重建整个机器学习模型,尤其是针对神经网络等更一般的模型,通过实际攻击和差分隐私的方法来防御这种攻击,并探讨其对标准机器学习管道的影响。
Jan, 2022
本文主要研究基于深度学习自然语言处理中的对抗攻击,探讨攻击者如何通过窃取神经网络文本分类器的隐藏表示来获取敏感信息,为解决此问题,文章提出并论证多个防御方案,改进神经表示的隐私保护性能。
Aug, 2018
在这项工作中,我们提出了一种针对联邦学习环境中的强力重构攻击,该攻击重构了中间特征,并且与大多数先前的方法相比,集成且表现更好。我们在这种更强力的攻击上进行了深入的理论和实证研究,发现梯度剪裁是针对最先进攻击的最有效策略。
Feb, 2024
使用大型语言模型,本研究探索了替代标记符的可行性,以保护用户隐私,分析了不同方法的实验结果,在下游语言建模任务中实现了与原始数据训练相媲美的性能。
Sep, 2023
本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法,其中没有模型信息被公开,攻击者只能查询模型以获得分类器的最终决策,该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。
Aug, 2020
本研究提出了针对 NLP 模型的 “自然后门攻击”,对文本数据进行触发器生成,并研究了不同类型的触发器,最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。
Jun, 2020