利用公共数据的最优差分隐私学习
本文研究了在差分隐私约束下的线性回归问题,恢复了特征、标签和系数域在优化误差和估计误差中的正确依赖性,并提出了两种简单修改的差分隐私算法:后验采样和充足统计扰动,并展示它们可升级为能针对每个实例利用数据相关量并行为几乎最优的自适应算法。作者在36个数据集上进行了广泛的实验,结果表明两种自适应算法优于现有技术。
Mar, 2018
本文研究的DP-SGD算法在训练神经网络时,由于梯度裁剪和噪声加法等机制对复杂和少数类样本的影响更大,造成训练模型的准确率不公平,使DP-SGD算法不适用于存在不平衡类别数据的训练任务。
May, 2019
本文提出了一种使用公共数据集来改进差分隐私模型训练隐私/效用权衡问题的新方法,该方法设计了一种自然的DP镜像下降算法,并证明该算法在具有非各向同性的次高斯分布特征向量的线性回归中提供了人口风险保证,同时控制了噪声稳定性,实现了更好的隐私/效用权衡取舍。
Dec, 2021
本文旨在探究如何使用差分隐私来训练机器学习模型,以ImageNet图像分类为例,展示如何使用方法和模型类型来让训练过程更好地进行。我们展示了一些方法,使我们能够使用DP来训练一个ResNet-18,精度为47.9%。虽然这比“朴素”的DP训练要好,但是离没有隐私的情况下的75%精度还有很大的差距。
Jan, 2022
本研究提出了DP-RandP方法,并从随机过程生成的图像中学习先验知识,并将这些先验知识传递给私有数据,从而提高了差分隐私随机梯度下降DP-SGD的隐私效用权衡的性能,并在CIFAR10,CIFAR100和MedMNIST数据集上实现了新的最佳准确度。
Jun, 2023
此研究旨在通过一个预训练模块提高DP-ML模型,特别是逻辑回归模型的准确性,通过在没有隐私问题的公共训练数据集上对模型进行首次训练,然后通过DP逻辑回归和私有数据集对模型进行微调,数值结果显示,增加预训练模块显著提高了DP逻辑回归的准确性。
Jul, 2023
预训练的基础模型经差分隐私微调可在下游任务中实现接近非隐私分类器的准确性,并且在四个数据集中实现与非隐私技术的准确性相差不多,包括两个医学成像基准数据集。此外,我们的隐私医学分类器在不同人口群体之间没有更大的性能差异。此里程碑使得差分隐私训练成为一项实用且可靠的技术,有潜力广泛应用于敏感数据的安全机器学习训练,同时保护个人隐私。
Aug, 2023
通过使用有限的公共数据,我们提出了一种新颖的差分隐私持续预训练策略,可以显著减轻差分隐私优化器的性能下降问题,并在ImageNet-21k上实现41.5%的差分隐私准确率(ε=8),以及在下游任务Places365和iNaturalist-2021上分别达到55.7%和60.0%的非差分隐私准确率,与当前最先进的标准预训练方法相媲美并且明显优于现有的差分隐私预训练模型。
Feb, 2024
通过利用已公开训练的编码器从私有数据中提取特征并生成代表嵌入空间中每个私有类的差异化隐私原型,DPPL提供了高效预测和强隐私保证,即使在纯差分隐私概念下,也能在高隐私和低数据环境以及私有训练数据不平衡时表现出优秀性能。
Jun, 2024
使用差分隐私和加噪声的方法对机器学习模型进行训练,通过对模型的权重添加噪声来实现隐私和效用的平衡,并通过实验证明了该方法的有效性,为在实际场景中部署差分隐私模型提供了一种实用的替代方案。
Jun, 2024