- 在 Wasserstein 距离中的最优实例私有密度估计
使用 Wasserstein 距离对分布进行差分私密密度估计,并设计了可以适应简单实例的实例最优算法,对于特殊情况下的离散分布,结果还导致了 TV 距离下的实例最优私密学习。
- 关于半敏感特征的凸优化
在半敏感 DP 设置下,我们研究了差分隐私(DP)经验风险最小化(ERM)问题,其中只有部分特征是敏感的。我们对 DP-ERM 的超额风险给出了改进的上界和下界。具体来说,在敏感域的规模方面,我们的错误只在对数多项式尺度上缩放,这比以前的结 - 私密几何中位数
本文研究了差分隐私算法在计算数据集的几何中位数方面的应用,提出了一对多项式时间的差分隐私算法,并证明其在样本复杂性方面的最优性。
- 将差分隐私合成数据应用于关系数据库的适应性
本研究提出了一种首次相结合现有差分隐私机制生成综合性关系型数据库的算法,通过迭代优化各个合成表之间的关系,最小化其低阶边缘分布的近似误差,并保持参照完整性。最终,我们对该算法提供了差分隐私和理论效用保证。
- FLIPHAT: 高维稀疏线性赌博机的联合差分隐私
在高维稀疏线性赌博模型中,在考虑数据隐私的情况下,我们设计了一种计算高效的赌博算法 FLIPHAT,它通过部分遗忘和噪声迭代硬阈值算法来确保隐私和达到最优遗憾性,研究内容包括隐私代价、估计误差和遗忘策略。
- ICML公平回归的差分私有后处理
该研究提出了一种差分隐私的后处理算法,用于学习满足统计平等的公平回归器,解决了机器学习模型在敏感数据上训练时的隐私问题和其传播历史偏见的公平问题,并提供了算法的样本复杂性和公平性保证,揭示了在直方图中选择的箱数的选择对于统计偏倚和方差之间的 - FastLloyd: 基于差分隐私的联邦式、准确、安全、可调整的 $k$-Means 聚类
在水平联邦环境中,我们研究了隐私保护的 k-means 聚类问题,并通过综合差分隐私和安全计算的方法提出了一个更快速、更加隐私安全和更准确的设计。
- 稀疏梯度的差分隐私优化
在大型嵌入模型应用的推动下,我们研究了带有个体梯度稀疏性的差分隐私(DP)优化问题,我们得到了经典均值估计问题的新近最优界限,但这是在稀疏数据情况下,改进了先前的算法,特别是在高维情况下。在此基础上,我们提出了几乎最优的 DP 算法和近似 - 使用函数机制的差分隐私对数 - 位置 - 尺度回归
该研究介绍了在 LLS 回归模型中引入差分隐私的差分隐私对数位置尺度回归(DP-LLS)模型,并通过功能机制将差分隐私融入 LLS 回归。研究证明了所提出的 DP-LLS 模型满足 epsilon - 差分隐私,并通过模拟和案例研究评估了该 - 通过非私有预处理实现可证明的隐私
通过引入 Smooth DP 和预处理算法的有界敏感性,提出了一个评估非私有数据依赖预处理算法额外隐私成本的通用框架,为多个数据依赖预处理算法(例如数据插补、量化、去重和主成分分析)与多个 DP 算法的组合提供明确的整体隐私保证。
- 通过图像字幕实现差分隐私表示学习
在这项工作中,我们通过图像字幕和扩大到互联网规模的多模态数据集,通过一系列的工程技巧,成功地从头开始训练了一个差分隐私图像字幕生成器(DP-Cap),并获得了前所未有的高质量图像特征,可用于各种下游视觉和视觉语言任务。
- 关于差分隐私微调的收敛性:线性探测还是全面微调?
通过理论研究和实证评估,本文分析了差分隐私 fine-tuning 方法的训练动态,并探讨了顺序 fine-tuning 的现象及其对测试损失的影响,为过参数化神经网络中的差分隐私调优提供了理论洞见和隐私预算分配规则。
- 关于差分隐私在线学习中错误增长的下界透视
对差分隐私在线学习算法提供了下界,表明广泛类别的(ε, δ)- 差分隐私在线算法 — 当满足 log T≤O (1/δ) 时,算法产生的错误数量的期望呈 Ω(log (T/δ)) 增长,与非隐私在线学习不同,其中错误数量与 T 无关。据我们 - 规模化大型语言模型微调的差分隐私零阶方法
本文研究了差分隐私零阶方法在预训练语言模型中的潜力,通过近似梯度避免了 SGD 的可扩展性瓶颈,并提出了动态调度超参数的阶段性差分隐私零阶方法和减少可训练参数的数据无关剪枝技术,从理论和实证分析了这两种方法的效果。
- 高斯噪声选择机制的隐私性
使用高斯噪音在测量上报延时过程中的分析显示,在对底层查询进行了有界假设的前提下,对于 Report Noisy Max 可以提供纯先验差分隐私界限,而对于 Above Threshold 可以提供纯后验差分隐私界限,并且所得到的界限是紧的且 - 差分隐私投影深度中位数
我们使用提出 - 测试 - 发布(PTR)和指数机制开发了 ε,δ 差分隐私投影深度中位数。我们对输入参数和人群测度的一般条件(例如,我们不假设任何时刻界限)进行了量化,以及通过有限样本偏离界限评估隐私成本。我们在典型的投影深度中位数上展示 - 用户级差分隐私随机凸优化:具有最优收敛速率的高效算法
我们研究了具有用户级隐私的差分隐私随机凸优化(DP-SCO),其中每个用户可能拥有多个数据项。我们开发了新算法用于用户级 DP-SCO,在多项式时间内获得凸和强凸函数的最优速率,并且在维度上只要求用户数量呈对数增长。此外,我们的算法是第一个 - 去中心化、可扩展和保护隐私的合成数据生成
合成数据可减少隐私风险并提供更好的隐私保障,但要实现可信的合成数据生成,需要综合考虑算法、贡献者的自治性、去中心化、隐私性和可扩展性等方面。
- 通过 $f$- 差分隐私统一增强混合机制的隐私边界
该研究聚焦于利用 f-DP 改进随机初始化的洗牌模型和一次迭代的差分隐私梯度下降(DP-GD)算法的隐私界限,并得到了洗牌模型的交替函数的闭式表达式,同时研究了随机初始化对于 DP-GD 的隐私影响。
- 使用联邦分析的差分隐私重点检测
通过研究基于前缀树算法的实际启发式方法,我们的工作旨在改进差分隐私重要数据检测算法的性能。我们提出了一种自适应超参数调整算法,以改善算法的性能,并满足计算、通信和隐私约束。通过在 Reddit 数据集上进行广泛实验,我们探究了不同数据选择方