推理与干扰：在差分隐私随机梯度下降中剪裁、修剪和损失景观的作用

Nov, 2023

推理与干扰：在差分隐私随机梯度下降中剪裁、修剪和损失景观的作用

Inference and Interference: The Role of Clipping, Pruning and Loss Landscapes in Differentially Private Stochastic Gradient Descent

PDF

Lauren Watson, Eric Gan, Mohan Dantam, Baharan Mirzasoleiman, Rik Sarkar

TL;DR差分隐私随机梯度下降（DP-SGD）相对于普通随机梯度下降（SGD）在大型神经网络上具有较差的训练和测试性能。通过对两种方法的详细研究和比较，我们揭示了一些新的见解。通过分别分析 DP-SGD 在早期和晚期阶段的行为，我们发现 DP-SGD 在早期阶段进展较慢，而晚期阶段的行为决定了最终结果。对 DP-SGD 的剪切和噪声添加步骤进行单独分析，我们发现噪声引入了误差，但是当梯度下降没有被剪切时，可以从这些误差中恢复，而剪切似乎比噪声具有更大的影响。这些效应在高维空间（大型神经网络）中被放大，其中损失区域占据了较低的维度空间。我们基于理论和大量实验的论证认为，幅值修剪可以作为一种合适的降维技术，在这方面可以改善 DPSGD 的测试准确性。

Abstract

differentially private stochastic gradient descent (dp-sgd) is known to have poorer training and test performance on large neural networks, compared to →

differentially private stochastic gradient descent dp-sgd ordinary stochastic gradient descent clipping magnitude pruning

发现论文，激发创造

含噪声 SGD 中的隐式偏差：与差分隐私训练的应用

使用小批量随机梯度下降（SGD）训练深度神经网络（DNNs）相对于大批量训练具有卓越的测试性能。这种随机梯度下降的特定噪声结构被认为是导致这种隐式偏差的原因。使用差分隐私（DP）确保 DNN 的训练时，DP-SGD 会向截断梯度添加高斯噪声。然而，大批量训练仍然导致显著的性能下降，这构成了一个重要的挑战，因为强 DP 保证需要使用大规模批次。我们首先展示这种现象也适用于无噪声 SGD（无截断的 DP-SGD），表明随机性（而不是截断）是这种隐式偏差的原因，即使加入了额外的各向同性高斯噪声。我们在线性最小二乘和对角线线性网络设置中理论上分析了连续版本的无噪声 SGD 所得到的解，并揭示了隐式偏差确实被额外的噪声放大。因此，大批量 DP-SGD 训练的性能问题根源于 SGD 的相同潜在原则，为大批量训练策略的潜在改进提供了希望。

Feb, 2024

带权重剪枝的 DP-SGD

通过利用当前全局模型及其在搜索域中的位置的公共信息，我们提出了一种新方法来缓解传统梯度剪裁带来的偏差，从而实现了改进的梯度界限，进一步确定了灵敏度并调整了噪声水平，提供更好的差异性隐私保证，并进行了实证评估。

Oct, 2023

不是所有的噪声都是相同计算的：不同隐私学习从大样本率中受益

本文着重研究了隐私预算的问题，提出了一套训练范式，通过调整噪声比例，使更多的噪声能被纳入隐私预算，从而在保护隐私和维护计算效用之间提供一种更好的平衡方案。

Oct, 2021

SGD 在高维度中的梯度剪裁动力学

通过研究剪裁在流式随机梯度下降中的应用，发现剪裁在某些噪声环境中可以提供性能优势，并讨论了高维剪裁与神经网络训练之间的联系。

Jun, 2024

预修剪和梯度下降改进差分隐私图像分类

通过引入预剪枝和梯度删除来减少参数空间和提高可伸缩性，从而提高深度神经网络的训练，同时解决了差分隐私在训练过程中的可扩展性问题。

Jun, 2023

私有 SGD 中的梯度裁剪：几何角度的理解

本文研究深度学习中涉及到隐私保护的问题，探讨了梯度裁剪在保证隐私的前提下防止 SGD 算法陷入局部极小值的作用，并提出了一种基于扰动的新技术用于解决梯度分布不对称问题。

Jun, 2020

私隐差分深度学习的高效可扩展训练

差分隐私随机梯度下降（DP-SGD）是在差分隐私下训练机器学习模型的标准算法，其主要缺点是效用下降和显著的计算成本，我们通过综合实证研究量化了差分隐私下训练深度学习模型的计算成本，并对旨在降低成本的方法进行了基准测试，其中包括更高效的 DP-SGD 实现和使用低精度进行训练，最后我们还研究了使用多达 80 个 GPU 的扩展行为。

Jun, 2024

动态差分隐私保护随机梯度下降

本文提出了动态 DP-SGD 算法，通过动态调整剪裁阈值和噪声幅度来降低性能损失，同时保持隐私，从而显著提高了模型的准确性。

Oct, 2021

梯度看起来相似：DP-SGD 中的敏感性经常被高估

本文发展了一种新的 DP-SGD 分析方法，该算法能够更好地处理训练数据集中许多数据点的隐私泄露问题，具有更好的隐私保障，特别是对正确分类的数据点而言。

Jul, 2023

消除差异隐私随机梯度下降对模型准确性的不利影响

本文针对机器学习中的差分隐私引入了『utility-privacy trade-off』，并提出了一种名为 DPSGD-F 的修改版随机梯度下降算法来消除差分隐私对受保护群体的不平等影响，具有『adaptive clipping』的特点。我们的实验证明了群体样本大小和群体剪辑偏差如何影响 DPSGD 中差分隐私的影响，以及 DPSGD-F 中如何采用自适应剪辑来减轻差分隐私造成的不平等影响。

Mar, 2020