Sep, 2021

罗宾汉与马太效应:差分隐私对合成数据有不同影响

TL;DR本研究分析了Differential Privacy对生成的合成数据的大小和准确性的影响,特别是对于数据中的少数派子群/类别。使用DP模型(PrivBayes,DP-WGAN和PATE-GAN)进行分析,发现DP导致生成的合成数据形态的不同,从而导致不同层面上的分类任务的准确性不同,影响数据中被较少关注的子部分。因此,使用合成数据训练模型有可能会出现对不同子群体不平等的风险,从而导致不可靠或不公平结果。