一种用于表格数据的有监督生成优化方法

Sep, 2023

一种用于表格数据的有监督生成优化方法

A supervised generative optimization approach for tabular data

Fadi Hamad, Shinpei Nakamura-Sakai, Saheed Obitayo, Vamsi K. Potluru

TL;DR合成数据生成已成为金融机构的重要课题，本研究提出了一种新的合成数据生成框架，将监督组件与元学习方法结合，为特定下游任务学习最佳混合分布的已有合成分布。

Abstract

synthetic data generation has emerged as a crucial topic for financial institutions, driven by multiple factors, such as privacy protection and data augmentation. Many algorithms have been proposed for

synthetic data generation financial institutions privacy protection data augmentation meta-learning

发现论文，激发创造

合成表格数据生成的实用性

研究了使用合成表格数据进行数据共享、数据增强、类别平衡和数据摘要等四种情况下，机器学习性能的表现，然而，作者得出结论认为没有足够的证据证明合成数据对于机器学习训练有用。

Jun, 2023

结构化合成表格数据的评估

通过提出一个带有单一、数学目标的评估框架，该论文意在解决合成表格数据质量评估的问题，允许通过结构化的方式推断度量的完整性，并统一从忠实性、下游应用和基于模型的方法等多个角度出发的度量，展示了显式表达结构的合成数据生成器在小型数据集上的卓越表现。

Mar, 2024

可编程的合成表格数据生成

大量的表格数据由于隐私、数据质量和数据共享限制而未完全利用。本文介绍了 ProgSyn，这是第一个可编程的合成表格数据生成算法，它允许对生成的数据进行全面的自定义。通过在原始数据集上进行预训练并根据提供的规范进行差分可微损失函数的微调，ProgSyn 可以确保高质量的数据并满足自定义规范。实验评估结果表明，ProgSyn 在多个约束条件下取得了新的最先进水平，并且具有广泛的适用性。综合而言，ProgSyn 为生成受限制的合成表格数据提供了灵活、易用的框架，允许规范超越先前的工作的能力。

Jul, 2023

深度生成模型、合成表格数据与差分隐私：概述与综述

该文章综合介绍了最近在通过深度生成模型生成合成数据方面的研究进展，重点关注表格数据集。我们特别概述了在隐私敏感数据背景下合成数据生成的重要性。此外，我们强调了使用深度生成模型相对于其他方法的优势，并详细解释了底层概念，包括无监督学习、神经网络和生成模型。该论文涵盖了在对表格数据集使用深度生成模型时涉及的挑战和考虑因素，如数据归一化、隐私问题和模型评估。本综述为对合成数据生成及其应用感兴趣的研究人员和实践者提供了有价值的资源。

Jul, 2023

通过合成数据扩展提升数据分析能力

合成数据生成是一种通过解决数据稀缺性和隐私问题、实现前所未有的性能而在数据科学领域引起了一场转变的生成人工智能的基石。本文介绍了用于分析的合成数据生成框架，该框架利用了统计方法在高保真度合成数据上的运用，这些数据由诸如表扩散和预训练生成转换模型等先进模型生成，并通过相关研究得到进一步的改进。通过三个案例研究：文本情感分析、结构化数据预测建模和表格数据推断，我们证明了该框架在传统方法之上的有效性，强调了合成数据生成在数据科学中的转化潜力。

Oct, 2023

利用数据中心人工智能重塑合成表格数据生成：一项全面的基准评估

利用数据中心人工智能技术生成代表性的合成数据，以改进传统的合成数据生成方法，并促进其在提高合成数据质量和效果方面的应用。

Oct, 2023

STaSy: 基于得分的表格数据合成

本文提出了一种名为 STaSy 的新模型和它基于评分的生成模型训练策略，在实验中，该模型在生成任务中较现有方法表现更好，提升了样本质量和多样性。

Oct, 2022

利用半监督学习开发合成数据以处理小规模和不平衡数据集

本文研究了通过模式的凸组合生成合成数据以及在半监督学习框架中利用这些数据作为无监督信息的效果，以支持小的高维度数据集和不平衡学习问题，而无需标记合成示例。作者在 53 个二元分类数据集上进行实验，结果表明该方法支持半监督学习中的聚类假设，对于小型高维度数据集和不平衡学习问题表现出色。

Mar, 2019

在差分隐私下生成表格数据集

优化生成模型的质量和隐私之间的平衡，通过引入关注机制学习可逆的表格表示和差分隐私扩散模型来合成高质量的表格数据。

Aug, 2023

朝向基于原则的表格数据合成算法评估

利用扩散模型和大型语言模型的新型综合器进行对比评估，提出了一套评估指标，旨在解决现有评估指标的局限性，并为调优提供了普遍目标，以保护数据隐私和提高合成数据的质量。

Feb, 2024