无抽样或洗牌的实用且保密的 (深度) 学习

Feb, 2021

无抽样或洗牌的实用且保密的 (深度) 学习

Practical and Private (Deep) Learning without Sampling or Shuffling

Peter Kairouz, Brendan McMahan, Shuang Song, Om Thakkar, Abhradeep Thakurta...

TL;DR使用差分隐私的 Follow-The-Regularized-Leader（DP-FTRL）是一种比 DP-SGD 更加灵活的模型训练方法，在隐私、准确性和计算方面表现都很好，特别适用于联邦学习等实际场景，同时也不需要使用任何隐私扩展。

Abstract

We consider training models with differential privacy (DP) using mini-batch gradients. The existing state-of-the-art, Differentially Private Stochastic Gradient Descent (DP-SGD), requires privacy amplification by sampling or shuffling to obtain the best →

differential privacy mini-batch gradients privacy/accuracy/computation trade-offs federated learning dp-ftrl

发现论文，激发创造

私隐差分深度学习的高效可扩展训练

差分隐私随机梯度下降（DP-SGD）是在差分隐私下训练机器学习模型的标准算法，其主要缺点是效用下降和显著的计算成本，我们通过综合实证研究量化了差分隐私下训练深度学习模型的计算成本，并对旨在降低成本的方法进行了基准测试，其中包括更高效的 DP-SGD 实现和使用低精度进行训练，最后我们还研究了使用多达 80 个 GPU 的扩展行为。

Jun, 2024

动态差分隐私保护随机梯度下降

本文提出了动态 DP-SGD 算法，通过动态调整剪裁阈值和噪声幅度来降低性能损失，同时保持隐私，从而显著提高了模型的准确性。

Oct, 2021

采样机制下的个性化 DP-SGD

基于个性化采样机制的深度学习 DP-SGD 扩展算法，支持针对不同用户的个性化差分隐私保护，实验证明其性能和效率优于现有的 DP-SGD 和 PDP 机制。

May, 2023

不是所有的噪声都是相同计算的：不同隐私学习从大样本率中受益

本文着重研究了隐私预算的问题，提出了一套训练范式，通过调整噪声比例，使更多的噪声能被纳入隐私预算，从而在保护隐私和维护计算效用之间提供一种更好的平衡方案。

Oct, 2021

通过 JL 投影实现快速和内存高效的差分隐私 - SGD

本文提出了 DP-SGD-JL 和 DP-Adam-JL，使用 Johnson-Lindenstrauss 投影来快速逼近每个样本的梯度范数，从而使优化器的训练时间和内存需求接近于其非 DP 版本，在 IMDb 数据集上实现了好的隐私与准确性折衷，并且隐私分析使用 Dong 等人提出的 f-DP 框架来证明。

Feb, 2021

基于共识算法的差分隐私分散深度学习

本研究提出了一种基于不同隐私的分散式深度学习方法，该方法对协作学习的数据进行隐私保护，保障节点之间数据的安全交换。实验结果表明，在稀疏图和不均匀数据分布下，不同隐私梯度跟踪具有抗干扰性，并且可在不向其他代理共享原始数据的情况下学习高准确性模型。

Jun, 2023

大型语言模型能成为强差分私有学习器

使用预训练的语言模型以及非标准化超参数和 fine-tuning 目标结合 DP 优化技术，可在中等规模的语料库上获得胜过强基线和同一隐私预算下的 DP-trained 模型的 NLP 模型。我们还提出了一种内存节省技术来解决在大型 Transformers 上运行 DP-SGD 的计算难题，该技术可以使得 clip 在 DP-SGD 中运行而无需对模型中的任何线性层实例化每个样本的梯度，成本与非隐私的训练相当，并且有适度的运行时间开销。

Oct, 2021

关于利用差分隐私和经典正则化技术进行优化的效用与保护

该文探讨了在深度学习模型中如何保护训练数据的隐私，比较了不同优化方法对模型性能、训练效果和隐私攻击的影响，并确定了 dropout 和 l2 正则化作为较优秀的隐私保护方法。

Sep, 2022

随机签到的隐私扩大

本文介绍了一种分布式协议，称为随机签到分布式协议，它可用于联合学习等环境中的差分隐私随机梯度下降，在隐私和准确性之间实现了权衡，并且不需要服务器发起通信或了解总体规模。同时，作者还扩展了隐私放大技术，以在使用数量更少的用户数据时提供相似的隐私保护和效用。

Jul, 2020

梯度看起来相似：DP-SGD 中的敏感性经常被高估

本文发展了一种新的 DP-SGD 分析方法，该算法能够更好地处理训练数据集中许多数据点的隐私泄露问题，具有更好的隐私保障，特别是对正确分类的数据点而言。

Jul, 2023