合成数据: 重访隐私-效用权衡
评估了现有生成模型绘制的合成数据的隐私保护优势,发现与传统的匿名化技术相比,其提供的隐私保护水平无法预测且数据效用低下,并不存在更好的隐私保护与数据效用均衡的解决方案。
Nov, 2020
本研究介绍了一种后处理技术,使用有效的随机一阶算法从合成数据中进行重新采样,以过滤不符合选定效用度量标准的样本,提高了合成数据的效用,并保持强大的隐私保护和数据集质量。
May, 2023
通过开发多步骤的合成数据生成框架并评估其风险效用模型,成功评估了使用该框架生成的数据的质量,展示了开放 - CESP倡议的技术和概念的可行性。
Oct, 2023
通过评估数据的统计相似性来衡量隐私是不可靠和不一致的,而生成模型只应以差分隐私为标准以保护数据隐私。本文针对领先公司提供的隐私度量指标进行分析,揭示了一些关键的推理缺陷,并提出了成功恢复生成模型中绝大部分用于训练的异常记录的重构攻击 ReconSyn。研究表明,仅将差分隐私应用于模型或使用低效的生成器不能减轻 ReconSyn 对隐私的泄露风险,因为泄露主要来自于度量指标。总体而言,我们的工作提醒从业人员不要偏离既定的隐私保护机制。
Dec, 2023
我们提出了一种综合评估合成数据的方法,该方法包括合成数据质量的三个维度:相似性、实用性和隐私性。通过将这种评估应用于三个不同的学习分析数据集以及三种不同的合成数据生成方法,我们的结果表明合成数据可以在保护隐私的同时保持与真实数据相似的实用性。此外,针对不同学习分析场景中不同的隐私和数据实用性需求,我们提出了定制的合成数据生成建议。该论文不仅提供了合成数据的综合评估,还说明了在学习分析领域中缓解隐私问题的潜力,从而促进了合成数据在学习分析中的更广泛应用,推动了开放科学的良好实践。
Jan, 2024
我们采用差分隐私的框架研究了敏感数据分析的方法,通过将均匀采样步骤替换为私有分布估计器,我们改进了Boedihardjo等人工作的算法,并提供了离散和连续分布的计算保证,适用于多种统计任务。
May, 2024
通过研究其他行业采用的常见框架,该论文调查了如何将合成智能电表数据应用于合成数据的一致性评估框架,并建议具体的指标来确保智能电表数据的定义方面得以保留,并测试使用差分隐私保护隐私的程度。结果表明,标准的隐私攻击方法不适用于评估智能电表数据集的隐私风险,论文提出了一种改进方法,并通过注入训练数据中不合理的异常值,直接对这些异常值进行隐私攻击,强调在保证准确性和隐私性之间权衡时,ε(隐私损失的度量)的选择显著影响隐私风险,并提出了明确的隐私测试的必要性。
Jul, 2024