使用半敏感特征训练差分隐私广告预测模型

Jan, 2024

使用半敏感特征训练差分隐私广告预测模型

Training Differentially Private Ad Prediction Models with Semi-Sensitive Features

Lynn Chua, Qiliang Cui, Badih Ghazi, Charlie Harrison, Pritish Kamath...

TL;DR在数字广告中遇到的问题的基础上，我们引入了使用半敏感特征训练差分隐私（DP）机器学习模型的任务。在这个设置中，攻击者已知一部分特征（因此无需保护），而其余特征以及标签对攻击者来说是未知的，需要受到 DP 保护。该任务在使用完全 DP（需要保护标签和所有特征）或使用标签 DP（认为所有特征已知，只需保护标签）两者之间插值。我们提出了一种新的算法来训练具有半敏感特征的 DP 模型。通过对真实广告数据集进行实证评估，我们证明了我们的算法在效用上超过了（i）在所有特征（已知和未知）上运行的 DP 随机梯度下降（DP-SGD）基线，以及（ii）仅在已知特征上运行的标签 DP 算法（而舍弃未知特征）的基线。

Abstract

Motivated by problems arising in digital advertising, we introduce the task of training differentially private (DP) machine learning models with semi-sensitive features. In this setting, a subset of the features is known to the →

differentially private machine learning models semi-sensitive features attacker dp guarantee algorithm

发现论文，激发创造

利用大型语言模型生成私有合成文本

本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法，通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优，然后利用该模型可以产生差分隐私合成数据集，同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同，还可用于调整同一模型等级的分类器。

Jun, 2023

训练知道自己不知道什么的私有模型

通过研究选择性分类器在差分隐私约束下的效果，探讨深度学习模型的可靠性及隐私泄漏问题，发现最近的一种基于现成的深度学习模型生成检查点的方法在差分隐私下更为合适，使用差分隐私不仅会降低模型的效能，而且在隐私预算降低时需要付出相当大的覆盖成本。

May, 2023

具有部分私有特征的分类

本研究提出了一种新颖的 AdaBoost 算法，用于在部分特征敏感的条件下实现差分隐私分类，其隐私证明更简单且具有可比拟或更高的准确性，并可适应所有特征敏感的经典情景。

Dec, 2023

关于半敏感特征的凸优化

在半敏感 DP 设置下，我们研究了差分隐私（DP）经验风险最小化（ERM）问题，其中只有部分特征是敏感的。我们对 DP-ERM 的超额风险给出了改进的上界和下界。具体来说，在敏感域的规模方面，我们的错误只在对数多项式尺度上缩放，这比以前的结果在敏感域的规模上多项式缩放有所改进（Ghazi 等人，2021 年）。

Jun, 2024

差分隐私与对抗鲁棒机器学习：实证评估

使用敌对训练和差分隐私训练的组合，本研究探讨了针对同时攻击的防御方法。通过使用成员推断攻击来基准测试 DP-Adv 技术的性能，并实证显示该方法的隐私性与非鲁棒私有模型相当。此外，该研究还强调了在动态训练范式中探索隐私保证的需求。

Jan, 2024

超越平均数：差分隐私原型的私有转移学习

通过利用已公开训练的编码器从私有数据中提取特征并生成代表嵌入空间中每个私有类的差异化隐私原型，DPPL 提供了高效预测和强隐私保证，即使在纯差分隐私概念下，也能在高隐私和低数据环境以及私有训练数据不平衡时表现出优秀性能。

Jun, 2024

利用梯度衍生的度量对不同 ially private 训练中的数据选择和估值进行优化

研究了如何在严格保护隐私的情况下，利用梯度信息来选择有利于模型训练的数据，解决在协同训练深度学习模型中，难以区分出有用数据点的问题。

May, 2023

具有有限公共数据的差分隐私模型的预训练

通过使用有限的公共数据，我们提出了一种新颖的差分隐私持续预训练策略，可以显著减轻差分隐私优化器的性能下降问题，并在 ImageNet-21k 上实现 41.5% 的差分隐私准确率（ε=8），以及在下游任务 Places365 和 iNaturalist-2021 上分别达到 55.7% 和 60.0% 的非差分隐私准确率，与当前最先进的标准预训练方法相媲美并且明显优于现有的差分隐私预训练模型。

Feb, 2024

解锁差分隐私图像分类的准确度与公平性

预训练的基础模型经差分隐私微调可在下游任务中实现接近非隐私分类器的准确性，并且在四个数据集中实现与非隐私技术的准确性相差不多，包括两个医学成像基准数据集。此外，我们的隐私医学分类器在不同人口群体之间没有更大的性能差异。此里程碑使得差分隐私训练成为一项实用且可靠的技术，有潜力广泛应用于敏感数据的安全机器学习训练，同时保护个人隐私。

Aug, 2023

在卫生保健领域进行差分隐私预测：追踪您的长尾

本研究研究了隐私保护机制对健康医疗领域数据挖掘和机器学习的影响和局限性，旨在通过使用最新的差分隐私数据挖掘算法来训练隐私保护的模型，并对这些模型进行全面的实证研究。该研究还探讨了隐私保护学习在医疗保健中的好处和成本。

Oct, 2020