利用公共数据的最优差分隐私学习
通过使用有限的公共数据,我们提出了一种新颖的差分隐私持续预训练策略,可以显著减轻差分隐私优化器的性能下降问题,并在 ImageNet-21k 上实现 41.5% 的差分隐私准确率(ε=8),以及在下游任务 Places365 和 iNaturalist-2021 上分别达到 55.7% 和 60.0% 的非差分隐私准确率,与当前最先进的标准预训练方法相媲美并且明显优于现有的差分隐私预训练模型。
Feb, 2024
预训练的基础模型经差分隐私微调可在下游任务中实现接近非隐私分类器的准确性,并且在四个数据集中实现与非隐私技术的准确性相差不多,包括两个医学成像基准数据集。此外,我们的隐私医学分类器在不同人口群体之间没有更大的性能差异。此里程碑使得差分隐私训练成为一项实用且可靠的技术,有潜力广泛应用于敏感数据的安全机器学习训练,同时保护个人隐私。
Aug, 2023
本文提出了一种使用公共数据集来改进差分隐私模型训练隐私 / 效用权衡问题的新方法,该方法设计了一种自然的 DP 镜像下降算法,并证明该算法在具有非各向同性的次高斯分布特征向量的线性回归中提供了人口风险保证,同时控制了噪声稳定性,实现了更好的隐私 / 效用权衡取舍。
Dec, 2021
本文研究的 DP-SGD 算法在训练神经网络时,由于梯度裁剪和噪声加法等机制对复杂和少数类样本的影响更大,造成训练模型的准确率不公平,使 DP-SGD 算法不适用于存在不平衡类别数据的训练任务。
May, 2019
本文提出一种算法来解决在不同隐私偏好的用户条件下的均值估计问题,并发现在两组用户具有不同隐私级别的情况下,该算法是最优的。当一个群体的隐私要求得到放宽时,会出现一个饱和现象,即进一步放宽该群体的隐私要求并不能改善估计器的性能。因此,中央服务器可以在不影响性能的情况下提供一定程度的隐私保护。
Apr, 2023
通过利用公共数据来提高私人学习算法的性能,本研究提出了第一种具有计算有效性的算法,以确保在满足与私人样本相关的差分隐私的同时,当私人数据分布足够接近公共数据时也能保证学习效果,并且在函数类可非私密学习时可进行私人学习的证明。
Feb, 2024
通过定量研究隐私保护机制差分隐私对机器学习模型公平性的影响,本研究提供了在不同的隐私级别和数据分布下,差分隐私能对模型公平性产生影响的界限,并确定了隐私减少歧视和增加歧视的情况,验证了理论发现在合成和现实世界数据集上的有效性。
May, 2024
通过研究选择性分类器在差分隐私约束下的效果,探讨深度学习模型的可靠性及隐私泄漏问题,发现最近的一种基于现成的深度学习模型生成检查点的方法在差分隐私下更为合适,使用差分隐私不仅会降低模型的效能,而且在隐私预算降低时需要付出相当大的覆盖成本。
May, 2023
公共数据辅助差分隐私算法的限制和能力研究,重点研究带有标记或无标记的公共数据的随机凸优化问题,通过建立 PA-DP 均值估计的新的下界,展示了算法的风险上限及最优策略,同时研究了未标记公共样本在隐私监督学习中的应用,并给出了广义线性模型的高效算法及其下界,最后将结果推广到具有有限胖碎片维度的一般假设类,涉及神经网络和非欧几里得几何的应用。
Mar, 2024