该论文旨在弥补当前机器学习流程中,尤其是数据预处理阶段中存在的隐私保护鸿沟,该研究使用一种基于统计学方法的隐私侵犯检测框架来实验性地测量机器学习管线的隐私级别,并应用这一新创建的框架来表明针对不平衡数据的重抽样技术会导致模型泄露更多隐私,强调了需开发私有的预处理技术。
Sep, 2021
预训练的基础模型经差分隐私微调可在下游任务中实现接近非隐私分类器的准确性,并且在四个数据集中实现与非隐私技术的准确性相差不多,包括两个医学成像基准数据集。此外,我们的隐私医学分类器在不同人口群体之间没有更大的性能差异。此里程碑使得差分隐私训练成为一项实用且可靠的技术,有潜力广泛应用于敏感数据的安全机器学习训练,同时保护个人隐私。
Aug, 2023
通过使用有限的公共数据,我们提出了一种新颖的差分隐私持续预训练策略,可以显著减轻差分隐私优化器的性能下降问题,并在 ImageNet-21k 上实现 41.5% 的差分隐私准确率(ε=8),以及在下游任务 Places365 和 iNaturalist-2021 上分别达到 55.7% 和 60.0% 的非差分隐私准确率,与当前最先进的标准预训练方法相媲美并且明显优于现有的差分隐私预训练模型。
Feb, 2024
用差分隐私训练机器学习模型的方法在近年来受到越来越多的关注。我们通过研究线性分类的简单案例,首次展示出在差分隐私优化中,除了使用差分隐私随机梯度下降算法(DPSGD)外,特征预处理对于优化结果的重要性。我们提出了一种名为 DPSGD-F 的算法,结合了 DPSGD 和特征预处理,并证明了对于分类任务,它的隐私误差与特征的直径成正比。我们还通过图像分类基准测试展示了我们算法的实用性。
Jul, 2023
本文研究了衡量数据集上 DP 机制对模型隐私保护的能力的新指标 - 隐私覆盖度,并提出了使用该指标排名训练集中样本隐私的方法,进而使用观察到的邻域分布的不可区分性转换来选择 epsilon 值。
Jun, 2023
本文概述了隐私保护的形式定义 Differential Privacy 在数据处理中提供严格保证的重要思想、概念和应用,特别关注它在机器学习和联邦学习领域的交叉应用。
May, 2022
通过微调基于公共语料库的模型来实现高质量和隐私保护的语言模型,提高私有领域的模型性能,让其成为可能。
Sep, 2020
此研究旨在通过一个预训练模块提高 DP-ML 模型,特别是逻辑回归模型的准确性,通过在没有隐私问题的公共训练数据集上对模型进行首次训练,然后通过 DP 逻辑回归和私有数据集对模型进行微调,数值结果显示,增加预训练模块显著提高了 DP 逻辑回归的准确性。
利用不同隐私保护方法在深度神经网络上进行私密训练,以实现维度较高的数据生成,并提出统一的方法以提供系统性的派生方法,满足不同用例的需求,探讨不同方法之间的优势、限制和内在相关性以启发未来研究,并提出前进的潜在途径以推动隐私保护学习领域的发展。
Sep, 2023
这篇论文通过建立 “迭代的隐私放大” 现象的统一框架,改进了先前分析的方法,有效地量化了差分隐私算法的隐私泄露,并扩展到各种设置和概念中,进而在 strongly convex optimization 领域中实现了第一个精确的隐私分析。
Mar, 2024