合成数据 -- 匿名化之地普通日

Nov, 2020

Synthetic Data -- Anonymisation Groundhog Day

Theresa Stadler, Bristena Oprisanu, Carmela Troncoso

TL;DR评估了现有生成模型绘制的合成数据的隐私保护优势，发现与传统的匿名化技术相比，其提供的隐私保护水平无法预测且数据效用低下，并不存在更好的隐私保护与数据效用均衡的解决方案。

Abstract

synthetic data has been advertised as a silver-bullet solution to privacy-preserving data publishing that addresses the shortcomings of traditional →

synthetic data privacy-preserving generative models privacy attacks anonymisation techniques

发现论文，激发创造

超越隐私：合成数据的机遇与挑战

本文探讨生成模型产生的合成数据可能成为机器学习领域的主导力量，可以创造更公平的数据、进行数据增强和模拟，尤其是在 ChatGPT 生成的文本方面。然而，在使用合成数据时，社区需要克服许多基本的挑战，其中最重要的是量化我们能够信任的查找或预测的程度。

Apr, 2023

隐私保护的可扩展性：学习分析中全面综合的合成表格数据生成与评估

我们提出了一种综合评估合成数据的方法，该方法包括合成数据质量的三个维度：相似性、实用性和隐私性。通过将这种评估应用于三个不同的学习分析数据集以及三种不同的合成数据生成方法，我们的结果表明合成数据可以在保护隐私的同时保持与真实数据相似的实用性。此外，针对不同学习分析场景中不同的隐私和数据实用性需求，我们提出了定制的合成数据生成建议。该论文不仅提供了合成数据的综合评估，还说明了在学习分析领域中缓解隐私问题的潜力，从而促进了合成数据在学习分析中的更广泛应用，推动了开放科学的良好实践。

Jan, 2024

什么是合成数据？好的，坏的和丑陋的

介绍了合成数据的定义、用途、隐私挑战和限制，探讨了其作为隐私增强技术的潜力。

Mar, 2023

隐私保护的合成教育数据生成

本文提出了一种保护参与者隐私的教育数据生成模型和比较合成数据生成器的评估框架，阐述了 Naive 假名化可能导致的再识别威胁，并提出了保证隐私的技术。作者还在现有的大规模教育开放数据集上进行了评估。

Jul, 2022

去识别并不总是足够

通过对真实临床记录进行去识别并生成合成临床记录，我们发现合成数据表现出与真实数据相似的隐私问题，从而引发了合成临床记录是否可以成为敏感真实记录更好替代品的进一步研究的问题。

Jan, 2024

一个基于距离的原创全合成数据生成方法的统计属性和隐私保证

通过开发多步骤的合成数据生成框架并评估其风险效用模型，成功评估了使用该框架生成的数据的质量，展示了开放 - CESP 倡议的技术和概念的可行性。

Oct, 2023

在受监管行业中实现合成数据采纳

本文介绍了数据中心化思维的重要性和隐私问题、提出了基于合成数据的解决方案，并开发了一种全面的测试方法（DAISYnt），以检验这种方法在高度监管的领域中的可行性和质量，例如金融和医疗保健。

Apr, 2022

合成数据与监管的相遇

本文认为由差分隐私生成模型产生的合成数据可以被充分匿名化，从而成为匿名数据，并且符合监管要求。

Jul, 2023

合成数据，真实误差：如何（不）发布和使用合成数据

本文介绍了通过生成模型生成合成数据，并探讨了生成模型对下游机器学习任务的影响。提出了 Deep Generative Ensemble (DGE) 框架，该框架可以学习生成过程模型参数的后验分布，从而在模型训练、评估和不确定性量化方面取得了显著的改进，特别对于稀有类别和原始数据的低密度区域。

May, 2023

使用合成数据训练 AI 模型：可持续发展的机遇与风险

研究了合成数据的政策，包括创建、利用和传播。必须在保护隐私和数据的可用性之间找到平衡，并制定标准化准则来应对合成数据的挑战。

Aug, 2023