合成数据生成的效用理论

May, 2023

Utility Theory of Synthetic Data Generation

Shirong Xu, Will Wei Sun, Guang Cheng

TL;DR本文从统计学角度建立了公用度理论，旨在基于一般度量量化合成算法的公用度。我们验证了公用度指标的收敛性，并通过实验证实了我们的理论发现，以证明在正确的模型规格下，合成特征分布不一定与原始数据相同。

Abstract

Evaluating the utility of synthetic data is critical for measuring the effectiveness and efficiency of synthetic algorithms. Existing results focus on empirical evaluations of the utility of synthetic data, where

synthetic data utility theory generalization model comparison deep neural networks

发现论文，激发创造

推动零售数据科学：合成数据的综合评估

本文介绍了一种综合性框架，用于评估合成零售数据，注重保真度、实用性和隐私性。通过稳定性和普适性来衡量保真度，证明了合成数据在需求预测和动态定价等关键零售任务中的有效性，通过差分隐私确保数据具有出色的相似性和安全性，验证了该框架对于合成零售数据的可靠且可扩展的评估，是推进零售数据科学的重要工具。

Jun, 2024

合成数据：能否信任统计估计器？

在研究中，我们强调了推论效用的重要性，并提供了反对从合成数据（处理这些数据就好像它们是真实观察到的一样）进行天真推断的实证证据，我们认为即使估计是无偏的，阳性结果的率（类型 1 错误）将会不可接受地高，一个原因是低估了真实标准误差，它可能会随着更大样本量而逐渐增加，导致收敛较慢。这对于深度生成模型尤其是一个问题。在发布合成数据之前，开发针对这样的数据的统计推断工具至关重要。

Dec, 2023

测量用于竞赛的合成数据的质量

通过研究算法相对性能，本文讨论如何生成保护数据隐私的合成数据，以解决共享数据所带来的隐私问题。

Jun, 2018

为提高选定度量的效用而后处理私有合成数据

本研究介绍了一种后处理技术，使用有效的随机一阶算法从合成数据中进行重新采样，以过滤不符合选定效用度量标准的样本，提高了合成数据的效用，并保持强大的隐私保护和数据集质量。

May, 2023

揭示合成图像的实用性：不必完美也能出色

深度生成模型生成的合成图像可以解决数据缺乏和数据隐私问题。然而，图像质量评估仅仅基于图像质量测量，并且绝大部分研究者更青睐于产生逼真的图像的合成模型，即具有良好保真度评分，例如低 FID 和高 PSNR 的图像。本研究通过分析超过 100k 张胸部 X 射线图像及其人工合成的副本，确认了保真度、多样性和隐私性之间不可避免的平衡问题，同时指出了保真度和多样性并非高效实用性的必要条件，实验表明，对于数据增强而言，高效实用性的图片也可以是模式坍塌图像和低保真度图像。此外，实验还表明，还可能生成既高效实用又隐私保护的图像，这可以为隐私保护应用中的深度生成模型提供强有力的理论支持。

May, 2023

从真实数据到合成数据的转换：量化模型中的偏差

本研究旨在建立使用合成数据训练的模型在偏见和公平之间的权衡，并研究了合成数据生成技术的变体，包括差分隐私生成方案，通过实验表明，合成数据训练的模型存在不同程度的偏差影响，且生成的特征不相关的技术表现良好。该研究有助于数据科学实践者理解合成数据的使用中的偏见。

May, 2021

评估差分隐私合成数据对表格数据的效用和公平性在端到端机器学习流程中

对比真实数据，研究调查了采用差分隐私合成数据可以替代机器学习流程中的真实数据，并确定了训练和评估机器学习模型的最有效的合成数据生成技术。结果显示，基于边缘分布的合成数据生成器能够获取与真实数据相似的实用性和公平性特征。

Oct, 2023

合成数据生成模型的评估框架

通过提出一个新的评估框架，本研究旨在评估合成数据生成模型的能力以生成高质量的数据，利用统计和理论信息来比较模型的排名，并展示了该框架在两个应用场景下的实用性。

Apr, 2024

一个基于距离的原创全合成数据生成方法的统计属性和隐私保证

通过开发多步骤的合成数据生成框架并评估其风险效用模型，成功评估了使用该框架生成的数据的质量，展示了开放 - CESP 倡议的技术和概念的可行性。

Oct, 2023

基准测试差分隐私合成数据生成算法

本研究对不同差分隐私合成数据生成算法进行了系统基准测试，评估了合成数据的实用性，并确定了表现最佳和最差的算法。

Dec, 2021