合成数据：能否信任统计估计器？

Dec, 2023

合成数据：能否信任统计估计器？

Synthetic Data: Can We Trust Statistical Estimators?

Alexander Decruyenaere, Heidelinde Dehaene, Paloma Rabaey, Christiaan Polet, Johan Decruyenaere...

TL;DR在研究中，我们强调了推论效用的重要性，并提供了反对从合成数据（处理这些数据就好像它们是真实观察到的一样）进行天真推断的实证证据，我们认为即使估计是无偏的，阳性结果的率（类型 1 错误）将会不可接受地高，一个原因是低估了真实标准误差，它可能会随着更大样本量而逐渐增加，导致收敛较慢。这对于深度生成模型尤其是一个问题。在发布合成数据之前，开发针对这样的数据的统计推断工具至关重要。

Abstract

The increasing interest in data sharing makes synthetic data appealing. However, the analysis of synthetic data raises a unique set of met

data sharing synthetic data inferential utility naive inference statistical inference tools

发现论文，激发创造

合成数据，真实误差：如何（不）发布和使用合成数据

本文介绍了通过生成模型生成合成数据，并探讨了生成模型对下游机器学习任务的影响。提出了 Deep Generative Ensemble (DGE) 框架，该框架可以学习生成过程模型参数的后验分布，从而在模型训练、评估和不确定性量化方面取得了显著的改进，特别对于稀有类别和原始数据的低密度区域。

May, 2023

从真实数据到合成数据的转换：量化模型中的偏差

本研究旨在建立使用合成数据训练的模型在偏见和公平之间的权衡，并研究了合成数据生成技术的变体，包括差分隐私生成方案，通过实验表明，合成数据训练的模型存在不同程度的偏差影响，且生成的特征不相关的技术表现良好。该研究有助于数据科学实践者理解合成数据的使用中的偏见。

May, 2021

基于合成数据的贝叶斯学习基础

研究了在受到隐私或可用性限制的环境中，人工合成数据作为机器学习的工具的发展与应用，使用贝叶斯范式来描述学习过程中模型参数的更新，提出了一个基于决策理论的基于贝叶斯合成学习的新方法，比传统方法在不同的监督学习和推理问题中表现更出色。

Nov, 2020

通过合成数据扩展提升数据分析能力

合成数据生成是一种通过解决数据稀缺性和隐私问题、实现前所未有的性能而在数据科学领域引起了一场转变的生成人工智能的基石。本文介绍了用于分析的合成数据生成框架，该框架利用了统计方法在高保真度合成数据上的运用，这些数据由诸如表扩散和预训练生成转换模型等先进模型生成，并通过相关研究得到进一步的改进。通过三个案例研究：文本情感分析、结构化数据预测建模和表格数据推断，我们证明了该框架在传统方法之上的有效性，强调了合成数据生成在数据科学中的转化潜力。

Oct, 2023

什么是合成数据？好的，坏的和丑陋的

介绍了合成数据的定义、用途、隐私挑战和限制，探讨了其作为隐私增强技术的潜力。

Mar, 2023

合成数据生成的效用理论

本文从统计学角度建立了公用度理论，旨在基于一般度量量化合成算法的公用度。我们验证了公用度指标的收敛性，并通过实验证实了我们的理论发现，以证明在正确的模型规格下，合成特征分布不一定与原始数据相同。

May, 2023

使用合成数据生成器研究偏见：实证证据与哲学解释

本文提出了一种框架来生成具有特定类型偏差和它们的组合的合成数据，以分析在机器学习模型中存在的各种偏差，讨论它们与道德和正义框架的关系，并利用我们提出的合成数据发生器在不同场景中（包括存在不同偏差组合的场景）进行实验，因此分析了偏差对未减轻和减轻的机器学习模型的性能和公平度指标的影响。

Sep, 2022

超越隐私：合成数据的机遇与挑战

本文探讨生成模型产生的合成数据可能成为机器学习领域的主导力量，可以创造更公平的数据、进行数据增强和模拟，尤其是在 ChatGPT 生成的文本方面。然而，在使用合成数据时，社区需要克服许多基本的挑战，其中最重要的是量化我们能够信任的查找或预测的程度。

Apr, 2023

合成数据 -- 匿名化之地普通日

评估了现有生成模型绘制的合成数据的隐私保护优势，发现与传统的匿名化技术相比，其提供的隐私保护水平无法预测且数据效用低下，并不存在更好的隐私保护与数据效用均衡的解决方案。

Nov, 2020

一个基于距离的原创全合成数据生成方法的统计属性和隐私保证

通过开发多步骤的合成数据生成框架并评估其风险效用模型，成功评估了使用该框架生成的数据的质量，展示了开放 - CESP 倡议的技术和概念的可行性。

Oct, 2023