本文探讨生成模型产生的合成数据可能成为机器学习领域的主导力量,可以创造更公平的数据、进行数据增强和模拟,尤其是在 ChatGPT 生成的文本方面。然而,在使用合成数据时,社区需要克服许多基本的挑战,其中最重要的是量化我们能够信任的查找或预测的程度。
Apr, 2023
评估了现有生成模型绘制的合成数据的隐私保护优势,发现与传统的匿名化技术相比,其提供的隐私保护水平无法预测且数据效用低下,并不存在更好的隐私保护与数据效用均衡的解决方案。
Nov, 2020
本文提出了一种保护参与者隐私的教育数据生成模型和比较合成数据生成器的评估框架,阐述了 Naive 假名化可能导致的再识别威胁,并提出了保证隐私的技术。作者还在现有的大规模教育开放数据集上进行了评估。
Jul, 2022
通过开发多步骤的合成数据生成框架并评估其风险效用模型,成功评估了使用该框架生成的数据的质量,展示了开放 - CESP 倡议的技术和概念的可行性。
Oct, 2023
本研究旨在提供一个全面的流派统一的方案折衷了 PPDS 领域中的两种主要方法:统计方法和基于深度学习的方法,在提供了完整的参考表格和关键点摘要以及确定了实际应用中指导方法选择的准则之后,为 DLM 方法在私密图像合成方面提供了基准测试,并鉴别出 DP-MERF 是一种全能方法。
Jul, 2023
研究了合成数据的政策,包括创建、利用和传播。必须在保护隐私和数据的可用性之间找到平衡,并制定标准化准则来应对合成数据的挑战。
Aug, 2023
我们提出了一种综合评估合成数据的方法,该方法包括合成数据质量的三个维度:相似性、实用性和隐私性。通过将这种评估应用于三个不同的学习分析数据集以及三种不同的合成数据生成方法,我们的结果表明合成数据可以在保护隐私的同时保持与真实数据相似的实用性。此外,针对不同学习分析场景中不同的隐私和数据实用性需求,我们提出了定制的合成数据生成建议。该论文不仅提供了合成数据的综合评估,还说明了在学习分析领域中缓解隐私问题的潜力,从而促进了合成数据在学习分析中的更广泛应用,推动了开放科学的良好实践。
Jan, 2024
研究挑战性合成数据方案的企业部署,重点关注由大量个人高度敏感数据引起的隐私问题,并将挑战系统化为五个主要组别:i) 生成,ii) 基础架构和体系结构,iii) 治理,iv) 合规和规范,v) 采纳。此外,我们讨论了企业可以采用的战略和系统方法,以有效应对这些挑战并通过实现的解决方案建立信任。
本文介绍了数据中心化思维的重要性和隐私问题、提出了基于合成数据的解决方案,并开发了一种全面的测试方法(DAISYnt),以检验这种方法在高度监管的领域中的可行性和质量,例如金融和医疗保健。
Apr, 2022
合成数据和生成模型在隐私保护的数据共享解决方案中迅速崛起,并通过在表格综合机上实施全面的实证分析,突出了五种最先进表格综合机的实用 - 隐私权衡,提出了一个新的差分隐私表格潜在扩散模型,称为 DP-TLDM,能够在保持可比较的隐私风险水平的同时,显著提高合成数据的实用性。
Mar, 2024