基于信息对手的训练数据重构

Jan, 2022

Reconstructing Training Data with Informed Adversaries

Borja Balle, Giovanni Cherubin, Jamie Hayes

TL;DR研究如何通过反向工程的方法利用少量的反向查询训练数据重建整个机器学习模型，尤其是针对神经网络等更一般的模型，通过实际攻击和差分隐私的方法来防御这种攻击，并探讨其对标准机器学习管道的影响。

Abstract

Given access to a machine learning model, can an adversary reconstruct the model's training data? This work studies this question from the lens of a powerful informed →

machine learning adversary reconstruction attack neural networks differential privacy

发现论文，激发创造

对无数据先验的对手的边界重建攻击成功性进行限制

通过实验结果，我们在现实场景中提供了差分隐私机器学习模型下重构成功的明确上界，这有助于在不同上下文和度量标准下进行隐私参数的明智选择。

Feb, 2024

机器遗忘的重构攻击：简单模型易受攻击

机器遗忘是出于对数据自治的渴望：一个人可以要求使其数据在部署模型中的影响消失，并且这些模型应该更新，就像重新训练而没有该人的数据一样。然而，我们展示出这些更新与个人之间会暴露出高精度的重构攻击，这使得攻击者可以完整地恢复其数据，即使原始模型如此简单，以至于隐私风险可能不会引起担忧。我们展示了如何对线性回归模型中删除的数据点发起近乎完美的攻击。然后，我们将我们的攻击泛化到其他损失函数和架构，并在范围广泛的数据集上实证证明了我们的攻击的有效性（涵盖表格数据和图像数据）。我们的工作强调了即使对于极其简单的模型类别，当个人可以要求在模型中删除他们的数据时，隐私风险仍然是显著的。

May, 2024

用 Rényi 差分隐私来防御重建攻击

本文研究重建攻击和隐私保护，通过实验表明较大的隐私预算不能保护模型的成员推断，但可以保护好非常罕见的秘密，并提出一种相同机制的更好的重建攻击隐私保证。

Feb, 2022

机器学习模型中的数据更新信息泄露

我们考虑机器学习模型在更新数据集后重新训练以获取最新信息或反映分布变化的情况。我们调查是否可以从训练数据中推断出有关这些更新的信息（例如，记录的属性值的更改）。我们提出了基于原始模型和更新模型之间预测置信度差异的攻击方法，并根据两个公共数据集和多层感知器以及逻辑回归模型验证了我们的攻击方法。我们发现模型的两个快照相对于仅访问更新后的模型而言，会导致更高的信息泄漏。此外，我们观察到罕见属性值的数据记录更容易受到攻击，这指向了更新环境下隐私攻击的不同脆弱性。当将具有相同原始属性值的多个记录更新为相同的新值时（即重复更改），攻击者更有可能正确猜测更新后的值，因为重复更改在训练模型上留下了更大的痕迹。这些观察结果表明机器学习模型在更新环境下容易受到属性推理攻击的威胁。

Sep, 2023

用对抗性样本提升模型反演攻击

本文提出了一种新的训练范式，通过引入语义损失函数和注入对抗样本来增加训练数据的多样性，从而使攻击模型在数据重建过程中更加关注原始数据的类相关部分，进而提高现有学习攻击的性能。

Jun, 2023

Robust or Private？对抗训练使模型更容易受到隐私攻击

本文研究了对抗训练的对抗攻击容忍性与隐私攻击容忍性之间的关系，通过对 CIFAR-10 数据集进行三种不同类型的模型反演攻击，揭示了对抗训练模型输入空间存在的问题。

Jun, 2019

数据重构攻击和防御：系统评估

在这项工作中，我们提出了一种针对联邦学习环境中的强力重构攻击，该攻击重构了中间特征，并且与大多数先前的方法相比，集成且表现更好。我们在这种更强力的攻击上进行了深入的理论和实证研究，发现梯度剪裁是针对最先进攻击的最有效策略。

Feb, 2024

神秘揭露者：针对深度神经网络的生成模型反演攻击

本文介绍了一种新型攻击方法 —— 生成模型反演攻击，它可以显著地提高逆转深度神经网络的准确率，攻击者使用部分公共信息学习分布先验，引导逆转过程，并且通过实验证明了差分隐私在该攻击下的防御效果有限。

Nov, 2019

通过采样预训练扩散模型进行有针对性的图像重建

该研究提出利用预训练扩散模型生成目标类别的数据点的方法，突破先前攻击者需要准确的先验目标分布的限制，以此发动神经网络模型逆推攻击的严重性。

Jan, 2023

使用对抗正则化的成员隐私机器学习

介绍了一种隐私机制，用于训练机器学习模型以保证隐私，并使用敌对训练算法最小化模型的分类损失和最大的成员推断攻击，从而提高模型的鲁棒性和泛化性能，该机制在深度神经网络上的测试结果表明，可以在可接受的分类误差下显著降低成员推断攻击的风险。

Jul, 2018