合成数据生成的效用理论
本文介绍了一种综合性框架,用于评估合成零售数据,注重保真度、实用性和隐私性。通过稳定性和普适性来衡量保真度,证明了合成数据在需求预测和动态定价等关键零售任务中的有效性,通过差分隐私确保数据具有出色的相似性和安全性,验证了该框架对于合成零售数据的可靠且可扩展的评估,是推进零售数据科学的重要工具。
Jun, 2024
在研究中,我们强调了推论效用的重要性,并提供了反对从合成数据(处理这些数据就好像它们是真实观察到的一样)进行天真推断的实证证据,我们认为即使估计是无偏的,阳性结果的率(类型 1 错误)将会不可接受地高,一个原因是低估了真实标准误差,它可能会随着更大样本量而逐渐增加,导致收敛较慢。这对于深度生成模型尤其是一个问题。在发布合成数据之前,开发针对这样的数据的统计推断工具至关重要。
Dec, 2023
本研究介绍了一种后处理技术,使用有效的随机一阶算法从合成数据中进行重新采样,以过滤不符合选定效用度量标准的样本,提高了合成数据的效用,并保持强大的隐私保护和数据集质量。
May, 2023
深度生成模型生成的合成图像可以解决数据缺乏和数据隐私问题。然而,图像质量评估仅仅基于图像质量测量,并且绝大部分研究者更青睐于产生逼真的图像的合成模型,即具有良好保真度评分,例如低 FID 和高 PSNR 的图像。本研究通过分析超过 100k 张胸部 X 射线图像及其人工合成的副本,确认了保真度、多样性和隐私性之间不可避免的平衡问题,同时指出了保真度和多样性并非高效实用性的必要条件,实验表明,对于数据增强而言,高效实用性的图片也可以是模式坍塌图像和低保真度图像。此外,实验还表明,还可能生成既高效实用又隐私保护的图像,这可以为隐私保护应用中的深度生成模型提供强有力的理论支持。
May, 2023
本研究旨在建立使用合成数据训练的模型在偏见和公平之间的权衡,并研究了合成数据生成技术的变体,包括差分隐私生成方案,通过实验表明,合成数据训练的模型存在不同程度的偏差影响,且生成的特征不相关的技术表现良好。该研究有助于数据科学实践者理解合成数据的使用中的偏见。
May, 2021
对比真实数据,研究调查了采用差分隐私合成数据可以替代机器学习流程中的真实数据,并确定了训练和评估机器学习模型的最有效的合成数据生成技术。结果显示,基于边缘分布的合成数据生成器能够获取与真实数据相似的实用性和公平性特征。
Oct, 2023
通过提出一个新的评估框架,本研究旨在评估合成数据生成模型的能力以生成高质量的数据,利用统计和理论信息来比较模型的排名,并展示了该框架在两个应用场景下的实用性。
Apr, 2024
通过开发多步骤的合成数据生成框架并评估其风险效用模型,成功评估了使用该框架生成的数据的质量,展示了开放 - CESP 倡议的技术和概念的可行性。
Oct, 2023