合成数据: 重访隐私-效用权衡

Jul, 2024

Synthetic Data: Revisiting the Privacy-Utility Trade-off

Fatima Jahan Sarmin, Atiquer Rahman Sarkar, Yang Wang, Noman Mohammed

TL;DR通过分析之前一篇文章中的隐私游戏的实施方式，我们发现其只适用于特定环境，限制了其在一般情况下的适用性。与之前的结论相符，我们的实验表明合成数据在隐私和效用之间取得了更有利的平衡，优于提供的k-匿名化实现。

Abstract

synthetic data has been considered a better privacy-preserving alternative to traditionally sanitized data across various applications. However, a recent article challenges this notion, stating that →

发现论文，激发创造

私人合成数据发布的新型高效算法

提出了三种新的算法，用于构建差分隐私合成数据，且算法在最坏情况下具有差分隐私，通过理论分析和实证评估，确保准确性与隐私性。

Jul, 2020

合成数据--匿名化之地普通日

评估了现有生成模型绘制的合成数据的隐私保护优势，发现与传统的匿名化技术相比，其提供的隐私保护水平无法预测且数据效用低下，并不存在更好的隐私保护与数据效用均衡的解决方案。

Nov, 2020

为提高选定度量的效用而后处理私有合成数据

本研究介绍了一种后处理技术，使用有效的随机一阶算法从合成数据中进行重新采样，以过滤不符合选定效用度量标准的样本，提高了合成数据的效用，并保持强大的隐私保护和数据集质量。

May, 2023

基于分区的差分隐私合成数据生成

我们的方法采用基于分区的方法来改善合成数据的质量和可用性，在限定的隐私预算下，我们的方法优于现有方法，因此是私人合成数据共享的首选。

Oct, 2023

一个基于距离的原创全合成数据生成方法的统计属性和隐私保证

通过开发多步骤的合成数据生成框架并评估其风险效用模型，成功评估了使用该框架生成的数据的质量，展示了开放 - CESP倡议的技术和概念的可行性。

Oct, 2023

相似性为基础的隐私测量的不足：针对“真正匿名合成数据”的重构攻击

通过评估数据的统计相似性来衡量隐私是不可靠和不一致的，而生成模型只应以差分隐私为标准以保护数据隐私。本文针对领先公司提供的隐私度量指标进行分析，揭示了一些关键的推理缺陷，并提出了成功恢复生成模型中绝大部分用于训练的异常记录的重构攻击 ReconSyn。研究表明，仅将差分隐私应用于模型或使用低效的生成器不能减轻 ReconSyn 对隐私的泄露风险，因为泄露主要来自于度量指标。总体而言，我们的工作提醒从业人员不要偏离既定的隐私保护机制。

Dec, 2023

隐私保护的可扩展性：学习分析中全面综合的合成表格数据生成与评估

我们提出了一种综合评估合成数据的方法，该方法包括合成数据质量的三个维度：相似性、实用性和隐私性。通过将这种评估应用于三个不同的学习分析数据集以及三种不同的合成数据生成方法，我们的结果表明合成数据可以在保护隐私的同时保持与真实数据相似的实用性。此外，针对不同学习分析场景中不同的隐私和数据实用性需求，我们提出了定制的合成数据生成建议。该论文不仅提供了合成数据的综合评估，还说明了在学习分析领域中缓解隐私问题的潜力，从而促进了合成数据在学习分析中的更广泛应用，推动了开放科学的良好实践。

Jan, 2024

具有私密密度估计的差分隐私合成数据

我们采用差分隐私的框架研究了敏感数据分析的方法，通过将均匀采样步骤替换为私有分布估计器，我们改进了Boedihardjo等人工作的算法，并提供了离散和连续分布的计算保证，适用于多种统计任务。

May, 2024

合成数据异常值：身份泄露导航

通过对合成数据的异常值进行分析，我们的研究发现链接攻击方式可能会导致异常值被重新识别，并且差分隐私等额外安全措施可以预防重新识别，但会损失数据可用性。

Jun, 2024

定义“好”：合成智能电表数据评估框架

通过研究其他行业采用的常见框架，该论文调查了如何将合成智能电表数据应用于合成数据的一致性评估框架，并建议具体的指标来确保智能电表数据的定义方面得以保留，并测试使用差分隐私保护隐私的程度。结果表明，标准的隐私攻击方法不适用于评估智能电表数据集的隐私风险，论文提出了一种改进方法，并通过注入训练数据中不合理的异常值，直接对这些异常值进行隐私攻击，强调在保证准确性和隐私性之间权衡时，ε（隐私损失的度量）的选择显著影响隐私风险，并提出了明确的隐私测试的必要性。

Jul, 2024