合成数据 -- 匿名化之地普通日
本文探讨生成模型产生的合成数据可能成为机器学习领域的主导力量,可以创造更公平的数据、进行数据增强和模拟,尤其是在 ChatGPT 生成的文本方面。然而,在使用合成数据时,社区需要克服许多基本的挑战,其中最重要的是量化我们能够信任的查找或预测的程度。
Apr, 2023
我们提出了一种综合评估合成数据的方法,该方法包括合成数据质量的三个维度:相似性、实用性和隐私性。通过将这种评估应用于三个不同的学习分析数据集以及三种不同的合成数据生成方法,我们的结果表明合成数据可以在保护隐私的同时保持与真实数据相似的实用性。此外,针对不同学习分析场景中不同的隐私和数据实用性需求,我们提出了定制的合成数据生成建议。该论文不仅提供了合成数据的综合评估,还说明了在学习分析领域中缓解隐私问题的潜力,从而促进了合成数据在学习分析中的更广泛应用,推动了开放科学的良好实践。
Jan, 2024
本文提出了一种保护参与者隐私的教育数据生成模型和比较合成数据生成器的评估框架,阐述了 Naive 假名化可能导致的再识别威胁,并提出了保证隐私的技术。作者还在现有的大规模教育开放数据集上进行了评估。
Jul, 2022
通过对真实临床记录进行去识别并生成合成临床记录,我们发现合成数据表现出与真实数据相似的隐私问题,从而引发了合成临床记录是否可以成为敏感真实记录更好替代品的进一步研究的问题。
Jan, 2024
通过开发多步骤的合成数据生成框架并评估其风险效用模型,成功评估了使用该框架生成的数据的质量,展示了开放 - CESP 倡议的技术和概念的可行性。
Oct, 2023
本文介绍了数据中心化思维的重要性和隐私问题、提出了基于合成数据的解决方案,并开发了一种全面的测试方法(DAISYnt),以检验这种方法在高度监管的领域中的可行性和质量,例如金融和医疗保健。
Apr, 2022
本文介绍了通过生成模型生成合成数据,并探讨了生成模型对下游机器学习任务的影响。提出了 Deep Generative Ensemble (DGE) 框架,该框架可以学习生成过程模型参数的后验分布,从而在模型训练、评估和不确定性量化方面取得了显著的改进,特别对于稀有类别和原始数据的低密度区域。
May, 2023