相似性为基础的隐私测量的不足：针对 “真正匿名合成数据” 的重构攻击

Dec, 2023

相似性为基础的隐私测量的不足：针对 “真正匿名合成数据” 的重构攻击

On the Inadequacy of Similarity-based Privacy Metrics: Reconstruction Attacks against "Truly Anonymous Synthetic Data''

Georgi Ganev, Emiliano De Cristofaro

TL;DR通过评估数据的统计相似性来衡量隐私是不可靠和不一致的，而生成模型只应以差分隐私为标准以保护数据隐私。本文针对领先公司提供的隐私度量指标进行分析，揭示了一些关键的推理缺陷，并提出了成功恢复生成模型中绝大部分用于训练的异常记录的重构攻击 ReconSyn。研究表明，仅将差分隐私应用于模型或使用低效的生成器不能减轻 ReconSyn 对隐私的泄露风险，因为泄露主要来自于度量指标。总体而言，我们的工作提醒从业人员不要偏离既定的隐私保护机制。

Abstract

Training generative models to produce synthetic data is meant to provide a privacy-friendly approach to data release. However, we get robust guarantees only when models are trained to satisfy differential privacy

generative models differential privacy privacy metrics reconstruction attack privacy-preserving mechanisms

发现论文，激发创造

用 Rényi 差分隐私来防御重建攻击

本文研究重建攻击和隐私保护，通过实验表明较大的隐私预算不能保护模型的成员推断，但可以保护好非常罕见的秘密，并提出一种相同机制的更好的重建攻击隐私保证。

Feb, 2022

对无数据先验的对手的边界重建攻击成功性进行限制

通过实验结果，我们在现实场景中提供了差分隐私机器学习模型下重构成功的明确上界，这有助于在不同上下文和度量标准下进行隐私参数的明智选择。

Feb, 2024

扩散模型的视觉隐私审计

通过实证研究探讨差分隐私参数选择的挑战，揭示了实际数据与重建目标之间领域转变的关系，提出了基于扩散模型的重建攻击方法，并证明了真实数据先验对于重建的影响，现有的重建边界不良模拟了数据先验的风险，并且扩散模型可以作为有效的隐私泄漏审计工具。

Mar, 2024

表格 GANs 的隐私再识别攻击

我们研究了生成对抗网络（GANs）用于创建表格合成数据集可能导致的隐私风险，发现恶意攻击者可以通过选择与训练样本最接近的合成样本对隐私构成重大威胁，并且当攻击者具有对生成模型的知识或黑盒访问时，隐私威胁显著增加，而使用多目标优化的重构攻击甚至会增加识别机密样本的风险。

Mar, 2024

一个基于距离的原创全合成数据生成方法的统计属性和隐私保证

通过开发多步骤的合成数据生成框架并评估其风险效用模型，成功评估了使用该框架生成的数据的质量，展示了开放 - CESP 倡议的技术和概念的可行性。

Oct, 2023

关于重建图像的隐私评估：现有评估指标是否符合人类感知？

手工制作的图像质量度量标准通常被用来评估重建攻击下的模型隐私风险，本文综合研究了这些度量标准与人类隐私信息感知的可信度，并提出了一种基于学习的度量方法 SemSim，该方法在语义级别上更好地反映了隐私泄露，并且与现有度量标准相比具有更高的相关性。

Sep, 2023

PEARL: 私有嵌入和对抗重构学习合成数据

使用深度生成模型在不泄露敏感数据的情况下进行数据生成和训练。该方法通过独立的特征函数和对抗重新加权目标实现，并且在多个数据集上的实证评估表明，在合理的隐私级别下，我们的方法优于其他方法。

Jun, 2021

合成数据异常值：身份泄露导航

通过对合成数据的异常值进行分析，我们的研究发现链接攻击方式可能会导致异常值被重新识别，并且差分隐私等额外安全措施可以预防重新识别，但会损失数据可用性。

Jun, 2024

合成数据 -- 匿名化之地普通日

评估了现有生成模型绘制的合成数据的隐私保护优势，发现与传统的匿名化技术相比，其提供的隐私保护水平无法预测且数据效用低下，并不存在更好的隐私保护与数据效用均衡的解决方案。

Nov, 2020

协调医学影像中的人工智能性能与数据重建韧性

人工智能模型对其训练数据的信息泄漏存在漏洞，而隐私增强技术，如差分隐私，旨在规避这些弱点。通过设置可量化的隐私预算，差分隐私为训练模型提供最强大的保护，同时限制推断训练样本的风险或重建原始数据的风险。本研究对比了在不同隐私预算下人工智能模型的性能与理论风险界限和重建攻击的实证成功。研究结果表明，使用很大的隐私预算可以防止重建攻击，而性能下降微不足道。因此，我们得出结论，在处理敏感数据时，完全不使用差分隐私是不负责任的，并为隐私风险和模型性能之间的平衡找到了基础，为进一步的讨论奠定了基础。

Dec, 2023