朝向基于原则的表格数据合成算法评估

Feb, 2024

朝向基于原则的表格数据合成算法评估

Towards Principled Assessment of Tabular Data Synthesis Algorithms

Yuntao Du, Ninghui Li

TL;DR利用扩散模型和大型语言模型的新型综合器进行对比评估，提出了一套评估指标，旨在解决现有评估指标的局限性，并为调优提供了普遍目标，以保护数据隐私和提高合成数据的质量。

Abstract

data synthesis has been advocated as an important approach for utilizing data while protecting data privacy. A large number of tabular data synthesis algorithms (which we call synthesizers) have been proposed. So

data synthesis tabular data synthesis algorithms evaluation metrics privacy-preserving data synthesis synthetic data

发现论文，激发创造

结构化合成表格数据的评估

通过提出一个带有单一、数学目标的评估框架，该论文意在解决合成表格数据质量评估的问题，允许通过结构化的方式推断度量的完整性，并统一从忠实性、下游应用和基于模型的方法等多个角度出发的度量，展示了显式表达结构的合成数据生成器在小型数据集上的卓越表现。

Mar, 2024

基准测试差分隐私合成数据生成算法

本研究对不同差分隐私合成数据生成算法进行了系统基准测试，评估了合成数据的实用性，并确定了表现最佳和最差的算法。

Dec, 2021

SynthEval：一个用于详细评估表格化合数据的效用和隐私的框架

合成数据评估框架 SynthEval 旨在解决机器学习中的数据稀缺性、数据公平性和数据隐私性问题，并通过统计和机器学习技术全面评估数据的准确性和隐私保护完整性。

Apr, 2024

深度生成模型、合成表格数据与差分隐私：概述与综述

该文章综合介绍了最近在通过深度生成模型生成合成数据方面的研究进展，重点关注表格数据集。我们特别概述了在隐私敏感数据背景下合成数据生成的重要性。此外，我们强调了使用深度生成模型相对于其他方法的优势，并详细解释了底层概念，包括无监督学习、神经网络和生成模型。该论文涵盖了在对表格数据集使用深度生成模型时涉及的挑战和考虑因素，如数据归一化、隐私问题和模型评估。本综述为对合成数据生成及其应用感兴趣的研究人员和实践者提供了有价值的资源。

Jul, 2023

隐私保护的可扩展性：学习分析中全面综合的合成表格数据生成与评估

我们提出了一种综合评估合成数据的方法，该方法包括合成数据质量的三个维度：相似性、实用性和隐私性。通过将这种评估应用于三个不同的学习分析数据集以及三种不同的合成数据生成方法，我们的结果表明合成数据可以在保护隐私的同时保持与真实数据相似的实用性。此外，针对不同学习分析场景中不同的隐私和数据实用性需求，我们提出了定制的合成数据生成建议。该论文不仅提供了合成数据的综合评估，还说明了在学习分析领域中缓解隐私问题的潜力，从而促进了合成数据在学习分析中的更广泛应用，推动了开放科学的良好实践。

Jan, 2024

导航表格数据合成研究：理解用户需求和工具能力

该研究论文综述了表格数据生成 (TDS) 的最新进展，定义了一组功能和非功能需求，并分析了满足这些需求所涉及的挑战。此外，通过评估 36 种热门 TDS 工具的性能，提供了一份决策指南来帮助用户找到适合其应用的 TDS 工具，并确定了重要的研究空白。

May, 2024

衡量和减轻表格生成模型的隐私风险

合成数据和生成模型在隐私保护的数据共享解决方案中迅速崛起，并通过在表格综合机上实施全面的实证分析，突出了五种最先进表格综合机的实用 - 隐私权衡，提出了一个新的差分隐私表格潜在扩散模型，称为 DP-TLDM，能够在保持可比较的隐私风险水平的同时，显著提高合成数据的实用性。

Mar, 2024

在差分隐私下生成表格数据集

优化生成模型的质量和隐私之间的平衡，通过引入关注机制学习可逆的表格表示和差分隐私扩散模型来合成高质量的表格数据。

Aug, 2023

评估大型语言模型生成的合成数据的多方面评价框架

通过引入 SynEval 评估框架，对生成的合成表格数据进行质量、实用性和隐私保护方面的综合评估，以帮助研究人员和从业者在使用合成数据时有效地确定其适用性，并强调用户隐私的重要性。

Apr, 2024

一种用于表格数据的有监督生成优化方法

合成数据生成已成为金融机构的重要课题，本研究提出了一种新的合成数据生成框架，将监督组件与元学习方法结合，为特定下游任务学习最佳混合分布的已有合成分布。

Sep, 2023