具有部分私有特征的分类
通过研究选择性分类器在差分隐私约束下的效果,探讨深度学习模型的可靠性及隐私泄漏问题,发现最近的一种基于现成的深度学习模型生成检查点的方法在差分隐私下更为合适,使用差分隐私不仅会降低模型的效能,而且在隐私预算降低时需要付出相当大的覆盖成本。
May, 2023
在数字广告中遇到的问题的基础上,我们引入了使用半敏感特征训练差分隐私(DP)机器学习模型的任务。在这个设置中,攻击者已知一部分特征(因此无需保护),而其余特征以及标签对攻击者来说是未知的,需要受到 DP 保护。该任务在使用完全 DP(需要保护标签和所有特征)或使用标签 DP(认为所有特征已知,只需保护标签)两者之间插值。我们提出了一种新的算法来训练具有半敏感特征的 DP 模型。通过对真实广告数据集进行实证评估,我们证明了我们的算法在效用上超过了(i)在所有特征(已知和未知)上运行的 DP 随机梯度下降(DP-SGD)基线,以及(ii)仅在已知特征上运行的标签 DP 算法(而舍弃未知特征)的基线。
Jan, 2024
研究一类私有学习问题,其中数据是私有特征和公共特征的联接。针对多编码器模型中的公共特征,开发了新的算法以仅保护某些足够统计量,从而实现了线性回归的保证效用改进,并在两个标准的私有推荐基准上达到了最先进的水平,证明了适应私有 - 公共特征分离的方法的重要性。
Oct, 2023
在本文中,我们重新审视了分类的经典问题,但施加了隐私约束。在此约束下,无法直接观察原始数据(X1,Y1),…,(Xn,Yn),并且所有的分类器都是合适的本地差分隐私机制的随机结果的函数。统计学家可以自由选择这种隐私机制的形式,在这里,我们向每个特征向量 Xi 的位置和其标签 Yi 的离散化添加了拉普拉斯分布的噪声。分类规则是经过隐私保护的版本的良好研究分区分类规则。除了标准的 Lipschitz 和边距条件之外,还引入了一种新的特征,通过该特征可以计算出分类误差概率的精确收敛速率,无论是针对非私有数据还是私有数据。
Dec, 2023
在本研究中,我们调查了在差分隐私和公平性的约束下的二元分类问题。我们首先提出了一种基于解耦技术的算法,用于学习一个只保证公平性的分类器。该算法接受在不同人口群体上训练的分类器,并生成一个满足统计平衡的单个分类器。然后,我们改进了该算法以加入差分隐私。在隐私、公平性和效用保证方面,对最终算法的性能进行了严格的检验。在 Adult 和 Credit Card 数据集上进行的实证评估显示,我们的算法在公平性保证方面优于现有技术,同时保持相同水平的隐私和效用。
Feb, 2024
在许多经典视觉任务中,使用不同 ially private 机器学习还没有达到其 'AlexNet 时刻 ':对于手工特征训练的线性模型,其在中等隐私预算下的性能明显优于端到端的深度神经网络。为了超越手工特征的表现,我们展示私人学习要么需要更多私人数据,要么需要访问从相似领域的公共数据学到的特征。我们的工作引入了简单但强大的基线,用于不同 ially private 学习,这可以指导未来在这一领域的进展评估。
Nov, 2020
预训练的基础模型经差分隐私微调可在下游任务中实现接近非隐私分类器的准确性,并且在四个数据集中实现与非隐私技术的准确性相差不多,包括两个医学成像基准数据集。此外,我们的隐私医学分类器在不同人口群体之间没有更大的性能差异。此里程碑使得差分隐私训练成为一项实用且可靠的技术,有潜力广泛应用于敏感数据的安全机器学习训练,同时保护个人隐私。
Aug, 2023
探讨在分类和回归等多种模型中,为实现个体预测隐私保护所需的成本,以及通过训练多个模型并使用标准的聚合技术来预测,以降低聚合步骤引入的开销,并建立所有不同隐私预测算法的强广义保证,从而研究机器学习中差分隐私的最优样本调整量。
Mar, 2018
研究如何在收集敏感属性信息受到禁止或限制的情况下,通过差分隐私算法实现公平学习,并提出两种算法来设计实现,同时保证了差分隐私和均等几率性,讨论这三个性质间的权衡关系。
Dec, 2018