Jun, 2024

使用总变差距离的黑盒差分隐私审计

TL;DR我们提出了一种实用的方法,使用一个未在训练中暴露给模型的小规模保留数据集来审计差分隐私(DP)保证。我们的方法利用得分函数(如训练期间使用的损失函数)估计使用训练数据子集和保留数据集获得的得分之间的总变差(TV)距离,在了解底层 DP 训练算法的一些元信息的情况下,这些 TV 距离值可以转换为任意 δ 的(𝜖, δ)保证。我们表明,这些得分分布渐近地为底层训练算法的 DP 保证提供下界,但基于实用性的原因,我们对其进行了一次估计。我们指定导致高概率下界 DP 保证的条件。为了估计得分分布之间的 TV 距离,我们使用了基于直方图的简单密度估计方法。我们表明,TV 距离提供了一个非常接近最优鲁棒估计器,并具有一个误差率𝒪(k^(−1/3)),其中 k 是总样本数。基准数据集上的数值实验说明了我们方法的有效性,并展示了对于黑盒审计的改进。