DPART：差分隐私自回归表格数据生成的通用框架

ICMLJul, 2022

DPART：差分隐私自回归表格数据生成的通用框架

dpart: Differentially Private Autoregressive Tabular, a General Framework for Synthetic Data Generation

Sofiane Mahiou, Kai Xu, Georgi Ganev

TL;DR提出了一个 Python 库 dpart，使用差分隐私的自动生成合成数据的通用、灵活和可扩展的框架，其中核心是自回归建模。

Abstract

We propose a general, flexible, and scalable framework dpart, an open source python library for differentially private synthetic data generation<

differential privacy autoregressive modelling synthetic data generation python library open source

发现论文，激发创造

DP-TBART：用于差分隐私表格数据生成的基于 Transformer 的自回归模型

维护差分隐私并在各种数据集上表现出与基于边际的方法相竞争的性能，甚至能够在某些情况下超越现有技术方法，我们提出了基于 Transformer 的差分隐私表格自回归模型 (DP-TBART)，并提供了理论框架来理解基于边际的方法的局限性以及深度学习方法的贡献。这些结果表明，在生成差分隐私合成表格数据中，应将基于深度学习的技术视为可行的替代方法。

Jul, 2023

衡量和减轻表格生成模型的隐私风险

合成数据和生成模型在隐私保护的数据共享解决方案中迅速崛起，并通过在表格综合机上实施全面的实证分析，突出了五种最先进表格综合机的实用 - 隐私权衡，提出了一个新的差分隐私表格潜在扩散模型，称为 DP-TLDM，能够在保持可比较的隐私风险水平的同时，显著提高合成数据的实用性。

Mar, 2024

在差分隐私下生成表格数据集

优化生成模型的质量和隐私之间的平衡，通过引入关注机制学习可逆的表格表示和差分隐私扩散模型来合成高质量的表格数据。

Aug, 2023

PrivSyn：差分隐私数据合成

本文提出了 PrivSyn，第一个可以处理普通数据集（具有 100 个属性和域大小 $>2^{500}$）的自动合成数据生成方法，并在多个数据集上进行了广泛的评估，以展示我们的方法的性能。

Dec, 2020

基准测试差分隐私合成数据生成算法

本研究对不同差分隐私合成数据生成算法进行了系统基准测试，评估了合成数据的实用性，并确定了表现最佳和最差的算法。

Dec, 2021

差分隐私深度生成模型的统一视角

利用不同隐私保护方法在深度神经网络上进行私密训练，以实现维度较高的数据生成，并提出统一的方法以提供系统性的派生方法，满足不同用例的需求，探讨不同方法之间的优势、限制和内在相关性以启发未来研究，并提出前进的潜在途径以推动隐私保护学习领域的发展。

Sep, 2023

基于分区的差分隐私合成数据生成

我们的方法采用基于分区的方法来改善合成数据的质量和可用性，在限定的隐私预算下，我们的方法优于现有方法，因此是私人合成数据共享的首选。

Oct, 2023

使用大型语言模型的差分隐私表格数据合成

使用预训练的大型语言模型（LLMs），DP-LLMTGen 引入了一种新的框架来进行差分私有表格数据合成，通过微调过程模拟敏感数据集并生成多样的合成数据，有效地解决了实际挑战。

Jun, 2024

评估差分隐私合成数据对表格数据的效用和公平性在端到端机器学习流程中

对比真实数据，研究调查了采用差分隐私合成数据可以替代机器学习流程中的真实数据，并确定了训练和评估机器学习模型的最有效的合成数据生成技术。结果显示，基于边缘分布的合成数据生成器能够获取与真实数据相似的实用性和公平性特征。

Oct, 2023

基于自注意力的高数据效用差分隐私标签 GAN

DP-SACTGAN 是一种新颖的有条件生成对抗网络（CGAN）框架，用于差分隐私表格数据生成，旨在克服生成对抗网络在生成表格数据方面的局限性并满足差分隐私要求。实验结果表明，DP-SACTGAN 不仅能准确地建模原始数据的分布，还有效地满足差分隐私的需求。

Dec, 2023