通过图像字幕实现差分隐私表示学习

Mar, 2024

通过图像字幕实现差分隐私表示学习

Differentially Private Representation Learning via Image Captioning

Tom Sander, Yaodong Yu, Maziar Sanjabi, Alain Durmus, Yi Ma...

TL;DR在这项工作中，我们通过图像字幕和扩大到互联网规模的多模态数据集，通过一系列的工程技巧，成功地从头开始训练了一个差分隐私图像字幕生成器（DP-Cap），并获得了前所未有的高质量图像特征，可用于各种下游视觉和视觉语言任务。

Abstract

differentially private (DP) machine learning is considered the gold-standard solution for training a model from sensitive data while still preserving privacy. However, a major barrier to achieving this ideal is its sub-optimal →

differentially private dp machine learning privacy-accuracy trade-off dp representation learning image captioning

发现论文，激发创造

巨型数据集 ImageNet 规模下使用差分隐私进行训练

本文旨在探究如何使用差分隐私来训练机器学习模型，以 ImageNet 图像分类为例，展示如何使用方法和模型类型来让训练过程更好地进行。我们展示了一些方法，使我们能够使用 DP 来训练一个 ResNet-18，精度为 47.9％。虽然这比 “朴素” 的 DP 训练要好，但是离没有隐私的情况下的 75％精度还有很大的差距。

Jan, 2022

解锁差分隐私图像分类的准确度与公平性

预训练的基础模型经差分隐私微调可在下游任务中实现接近非隐私分类器的准确性，并且在四个数据集中实现与非隐私技术的准确性相差不多，包括两个医学成像基准数据集。此外，我们的隐私医学分类器在不同人口群体之间没有更大的性能差异。此里程碑使得差分隐私训练成为一项实用且可靠的技术，有潜力广泛应用于敏感数据的安全机器学习训练，同时保护个人隐私。

Aug, 2023

ViP：面向计算机视觉的差分隐私基础模型

本文主要介绍了使用差分隐私 DP 保证训练基础视觉模型的方法，以规避互联网规模数据的隐私和法律风险，并通过对 LAION400M 数据集上训练的视觉 Transformer ViP 的评估，展示了在严格隐私预算下获得可行的准确性和质量。

Jun, 2023

具有有限公共数据的差分隐私模型的预训练

通过使用有限的公共数据，我们提出了一种新颖的差分隐私持续预训练策略，可以显著减轻差分隐私优化器的性能下降问题，并在 ImageNet-21k 上实现 41.5% 的差分隐私准确率（ε=8），以及在下游任务 Places365 和 iNaturalist-2021 上分别达到 55.7% 和 60.0% 的非差分隐私准确率，与当前最先进的标准预训练方法相媲美并且明显优于现有的差分隐私预训练模型。

Feb, 2024

通过尺度解锁高精度差分隐私图像分类

本文主要研究采用差分隐私保护方法进行深度学习的训练，并在调优超参数以及利用一些技巧来提高信号传播和收敛速度的基础上，在图像分类任务中获得了新的最高精度，证明了采用过参数化模型的 DP-SGD 方法也可以实现更好的性能，这是在私有和非私有图像分类之间精度差距缩小的一个重要步骤。

Apr, 2022

精细选择 1% 数据集进行预训练！生成带语义查询的差分私有图像数据

DP 图像数据合成方法 PRIVIMAGE 通过精选预训练数据、轻参数化生成模型和隐私保护梯度下降等技术，实现高保真度和高效用性的 DP 数据集的创建，并在综合实验中展现出超越业界方法的合成性能和资源节约效果。

Oct, 2023

超越平均数：差分隐私原型的私有转移学习

通过利用已公开训练的编码器从私有数据中提取特征并生成代表嵌入空间中每个私有类的差异化隐私原型，DPPL 提供了高效预测和强隐私保证，即使在纯差分隐私概念下，也能在高隐私和低数据环境以及私有训练数据不平衡时表现出优秀性能。

Jun, 2024

差分隐私深度生成模型的统一视角

利用不同隐私保护方法在深度神经网络上进行私密训练，以实现维度较高的数据生成，并提出统一的方法以提供系统性的派生方法，满足不同用例的需求，探讨不同方法之间的优势、限制和内在相关性以启发未来研究，并提出前进的潜在途径以推动隐私保护学习领域的发展。

Sep, 2023

多模态 AI 中的数据保护：采用差分隐私方法进行 CLIP 训练

针对多模态 AI 在视觉 - 语言任务中引发的数据隐私问题，提出了基于差分隐私的 CLIP 模型 (Dp-CLIP)，通过梯度裁剪和不满足 DP-SGD 文献分析所假设的平滑条件的损失函数之间的权衡来平衡效用和隐私保护。

Jun, 2023

使用用户级差分隐私学习生成图像嵌入

本文提出一种名为 DP-FedEmb 的联邦学习算法改进版本，用于训练大规模图像到嵌入特征提取器模型，包含虚拟客户端、部分聚合、私有本地微调和公共预训练等技术，能在相同的隐私预算下实现强隐私效用平衡，并且在 DigiFace、EMNIST、GLD 和 iNaturalist 数据集上展示了其卓越的效用性能。

Nov, 2022