在低成本下对大型模型进行差分隐私优化
使用预训练的语言模型以及非标准化超参数和 fine-tuning 目标结合 DP 优化技术,可在中等规模的语料库上获得胜过强基线和同一隐私预算下的 DP-trained 模型的 NLP 模型。我们还提出了一种内存节省技术来解决在大型 Transformers 上运行 DP-SGD 的计算难题,该技术可以使得 clip 在 DP-SGD 中运行而无需对模型中的任何线性层实例化每个样本的梯度,成本与非隐私的训练相当,并且有适度的运行时间开销。
Oct, 2021
差分隐私随机梯度下降(DP-SGD)是在差分隐私下训练机器学习模型的标准算法,其主要缺点是效用下降和显著的计算成本,我们通过综合实证研究量化了差分隐私下训练深度学习模型的计算成本,并对旨在降低成本的方法进行了基准测试,其中包括更高效的 DP-SGD 实现和使用低精度进行训练,最后我们还研究了使用多达 80 个 GPU 的扩展行为。
Jun, 2024
DP-ZO 是一种维护训练数据隐私的方法,通过对零阶优化中步长的隐私化来对大型语言模型进行微调,可在保守的隐私预算下提供强大的隐私 - 效用权衡,且在 SQuAD 的 1000 个训练样本上,对 OPT-66B 的微调仅导致 1.86% 的性能降低。
Jan, 2024
该文探讨了在深度学习模型中如何保护训练数据的隐私,比较了不同优化方法对模型性能、训练效果和隐私攻击的影响,并确定了 dropout 和 l2 正则化作为较优秀的隐私保护方法。
Sep, 2022
本文提出了 DP-SGD-JL 和 DP-Adam-JL,使用 Johnson-Lindenstrauss 投影来快速逼近每个样本的梯度范数,从而使优化器的训练时间和内存需求接近于其非 DP 版本,在 IMDb 数据集上实现了好的隐私与准确性折衷,并且隐私分析使用 Dong 等人提出的 f-DP 框架来证明。
Feb, 2021
本文主要研究采用差分隐私保护方法进行深度学习的训练,并在调优超参数以及利用一些技巧来提高信号传播和收敛速度的基础上,在图像分类任务中获得了新的最高精度,证明了采用过参数化模型的 DP-SGD 方法也可以实现更好的性能,这是在私有和非私有图像分类之间精度差距缩小的一个重要步骤。
Apr, 2022
提出了一种不修改网络架构、参数高效、计算高效的模型无关机制 DP-BiTFiT,实现了对长序列和高分辨率图片的隐私保护微调,达到了 DP 算法的最高精度及标准微调的效率,其速度和内存使用量是 DP full fine-tuning 的 2-30 倍和 2-8 倍,使得现有隐私保护微调方法的计算难点得以攻克。
Sep, 2022
通过使用有限的公共数据,我们提出了一种新颖的差分隐私持续预训练策略,可以显著减轻差分隐私优化器的性能下降问题,并在 ImageNet-21k 上实现 41.5% 的差分隐私准确率(ε=8),以及在下游任务 Places365 和 iNaturalist-2021 上分别达到 55.7% 和 60.0% 的非差分隐私准确率,与当前最先进的标准预训练方法相媲美并且明显优于现有的差分隐私预训练模型。
Feb, 2024
在本研究中,我们深入研究了差分隐私优化中关键组成部分之一的逐样本梯度剪裁方式,发现不同的剪裁方式具有相同的时间复杂度,但存在准确性 - 内存消耗的权衡关系:粗粒度全部层剪裁通常提供最佳准确性,但相比于细粒度的分组剪裁,会带来更高的内存开销。我们通过收敛性理论和复杂性分析形式化表达了这种权衡关系。重要的是,我们证明了在更大的模型中,分组剪裁与全部层剪裁之间的准确性差距越来越小,而分组剪裁的内存优势仍然存在。因此,分组剪裁允许对大型模型进行差分隐私优化,以同时实现高准确性和低内存峰值。
Oct, 2023
使用差分隐私的 Follow-The-Regularized-Leader(DP-FTRL)是一种比 DP-SGD 更加灵活的模型训练方法,在隐私、准确性和计算方面表现都很好,特别适用于联邦学习等实际场景,同时也不需要使用任何隐私扩展。
Feb, 2021