Jul, 2023

可编程的合成表格数据生成

TL;DR大量的表格数据由于隐私、数据质量和数据共享限制而未完全利用。本文介绍了 ProgSyn,这是第一个可编程的合成表格数据生成算法,它允许对生成的数据进行全面的自定义。通过在原始数据集上进行预训练并根据提供的规范进行差分可微损失函数的微调,ProgSyn 可以确保高质量的数据并满足自定义规范。实验评估结果表明,ProgSyn 在多个约束条件下取得了新的最先进水平,并且具有广泛的适用性。综合而言,ProgSyn 为生成受限制的合成表格数据提供了灵活、易用的框架,允许规范超越先前的工作的能力。