精细选择 1% 数据集进行预训练!生成带语义查询的差分私有图像数据
本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法,通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优,然后利用该模型可以产生差分隐私合成数据集,同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同,还可用于调整同一模型等级的分类器。
Jun, 2023
通过使用有限的公共数据,我们提出了一种新颖的差分隐私持续预训练策略,可以显著减轻差分隐私优化器的性能下降问题,并在 ImageNet-21k 上实现 41.5% 的差分隐私准确率(ε=8),以及在下游任务 Places365 和 iNaturalist-2021 上分别达到 55.7% 和 60.0% 的非差分隐私准确率,与当前最先进的标准预训练方法相媲美并且明显优于现有的差分隐私预训练模型。
Feb, 2024
利用 API 来生成差分隐私合成数据的方法(DPSDA),不需要模型训练,通过 Private Evolution(PE)框架解决了这个问题,在 synthetic images 取得了很好的效果,同样适用于处理像 Stable Diffusion 这样的大型基础模型。
May, 2023
本文主要研究采用差分隐私保护方法进行深度学习的训练,并在调优超参数以及利用一些技巧来提高信号传播和收敛速度的基础上,在图像分类任务中获得了新的最高精度,证明了采用过参数化模型的 DP-SGD 方法也可以实现更好的性能,这是在私有和非私有图像分类之间精度差距缩小的一个重要步骤。
Apr, 2022
在此篇文章中,我们提出了一种为私有扩散模型优化参数效率的微调策略,通过减少可训练参数的数量来增强隐私 - 效用平衡,从而在 DP 合成方面取得了最先进的性能,在广泛研究的数据集上明显超过了先前的基准(如 CelebA-64 数据集上的小隐私预算下,仅有 0.47M 个可训练参数,在先前最先进结果上实现了超过 35% 的改进)。
Jun, 2024
本研究提出了 DP-RandP 方法,并从随机过程生成的图像中学习先验知识,并将这些先验知识传递给私有数据,从而提高了差分隐私随机梯度下降 DP-SGD 的隐私效用权衡的性能,并在 CIFAR10,CIFAR100 和 MedMNIST 数据集上实现了新的最佳准确度。
Jun, 2023
在这项工作中,我们通过图像字幕和扩大到互联网规模的多模态数据集,通过一系列的工程技巧,成功地从头开始训练了一个差分隐私图像字幕生成器(DP-Cap),并获得了前所未有的高质量图像特征,可用于各种下游视觉和视觉语言任务。
Mar, 2024
通过引入一种新的剪辑和扰动策略,基于 Renyi 差分隐私监管机制,提出了一种差分隐私条件生成式对抗网络(DP-CGAN)训练框架,用于在保持培训数据隐私的同时提高模型性能,实验结果表明 DP-CGAN 可以通过单一的差分隐私 epsilon 参数在 MNIST 数据集上生成视觉和实验上有前途的结果。
Jan, 2020
本文旨在探究如何使用差分隐私来训练机器学习模型,以 ImageNet 图像分类为例,展示如何使用方法和模型类型来让训练过程更好地进行。我们展示了一些方法,使我们能够使用 DP 来训练一个 ResNet-18,精度为 47.9%。虽然这比 “朴素” 的 DP 训练要好,但是离没有隐私的情况下的 75%精度还有很大的差距。
Jan, 2022
本文提出一种学习差分隐私概率模型(DPPM),用于生成具有差分隐私保证的高分辨率图像,通过训练模型以适合训练数据的分布并在过程中执行随机响应机制,然后进行哈密顿动力学采样以及由训练概率模型预测的差分隐私运动方向,以获得保护隐私信息的图像,相比其他最先进的差分隐私生成方法,我们的方法可以生成高达 256x256 具有显着视觉质量和数据实用性的图像,大量实验表明我们的方法的有效性。
May, 2023