Nov, 2023

推理与干扰:在差分隐私随机梯度下降中剪裁、修剪和损失景观的作用

TL;DR差分隐私随机梯度下降(DP-SGD)相对于普通随机梯度下降(SGD)在大型神经网络上具有较差的训练和测试性能。通过对两种方法的详细研究和比较,我们揭示了一些新的见解。通过分别分析 DP-SGD 在早期和晚期阶段的行为,我们发现 DP-SGD 在早期阶段进展较慢,而晚期阶段的行为决定了最终结果。对 DP-SGD 的剪切和噪声添加步骤进行单独分析,我们发现噪声引入了误差,但是当梯度下降没有被剪切时,可以从这些误差中恢复,而剪切似乎比噪声具有更大的影响。这些效应在高维空间(大型神经网络)中被放大,其中损失区域占据了较低的维度空间。我们基于理论和大量实验的论证认为,幅值修剪可以作为一种合适的降维技术,在这方面可以改善 DPSGD 的测试准确性。