私有 SGD 中的梯度裁剪:几何角度的理解
通过利用当前全局模型及其在搜索域中的位置的公共信息,我们提出了一种新方法来缓解传统梯度剪裁带来的偏差,从而实现了改进的梯度界限,进一步确定了灵敏度并调整了噪声水平,提供更好的差异性隐私保证,并进行了实证评估。
Oct, 2023
本论文提出了一种易于使用的替代方案 AutoClipping,它消除了任何 DP 优化器(包括 DP-SGD,DP-Adam,DP-LAMB 等)调整剪辑参数 R 的需要,提供了和现有 DP 优化器一样私密和计算有效的自动变体,但不需要 DP 特定的超参数,因此使 DP 训练像标准的非私密训练一样易于处理,在非凸环境中采用自动 DP-SGD 的严格收敛分析表明其具有与标准 SGD 相匹配的渐近收敛速度,并证明该算法在各种语言和视觉任务上优于或与最先进的方法相匹配,可以很容易地用最少的更改应用于现有的代码库。
Jun, 2022
本研究提出了 AdaCliP 差分隐私 SGD 算法,通过对梯度进行逐坐标自适应剪辑的方式,可以降低加入的噪音,从而得到更准确的模型。
Aug, 2019
基于中位数估计的坚实梯度方法在随机梯度下降算法中能够应对重尾、状态相关性噪声,在分布式学习、隐私约束等领域有广泛应用。本研究在采样、几何中位数计算及迭代中都提出了基于中位数梯度估计的方法,并发现多种已知算法可看作此方法的特例。
Feb, 2024
通过将剪切阈值视为可学习参数,我们提出了一种新的方法来动态优化差分隐私机器学习模型的训练过程,从而在不牺牲整体隐私分析的情况下,在各种评估场景中展现出与传统方法相媲美甚至更好的性能。
Oct, 2023
差分隐私随机梯度下降(DP-SGD)相对于普通随机梯度下降(SGD)在大型神经网络上具有较差的训练和测试性能。通过对两种方法的详细研究和比较,我们揭示了一些新的见解。通过分别分析 DP-SGD 在早期和晚期阶段的行为,我们发现 DP-SGD 在早期阶段进展较慢,而晚期阶段的行为决定了最终结果。对 DP-SGD 的剪切和噪声添加步骤进行单独分析,我们发现噪声引入了误差,但是当梯度下降没有被剪切时,可以从这些误差中恢复,而剪切似乎比噪声具有更大的影响。这些效应在高维空间(大型神经网络)中被放大,其中损失区域占据了较低的维度空间。我们基于理论和大量实验的论证认为,幅值修剪可以作为一种合适的降维技术,在这方面可以改善 DPSGD 的测试准确性。
Nov, 2023
本文探讨了确保差分隐私的两个算法 DP-SGD 和 DP-NSGD,并在非凸优化设定下分析了这两种算法的收敛行为及其梯度范数的速度,同时介绍了 DP-NSGD 的正则化因子如何控制偏差和噪声的平衡。
Jun, 2022
通过实例推导得到一个新的平滑度条件 - 梯度平滑度随着梯度范数增大而增大,进一步推出了一种新的梯度平滑弱化条件,这使得旧行业标准的梯度下降优化算法可以进行改进。我们证明,这种新条件下的梯度削减和标准化梯度方法的收敛速度可任意加快,并在流行的神经网络训练环境下进行了实证验证。
May, 2019