一种用于表格数据的有监督生成优化方法
研究了使用合成表格数据进行数据共享、数据增强、类别平衡和数据摘要等四种情况下,机器学习性能的表现,然而,作者得出结论认为没有足够的证据证明合成数据对于机器学习训练有用。
Jun, 2023
通过提出一个带有单一、数学目标的评估框架,该论文意在解决合成表格数据质量评估的问题,允许通过结构化的方式推断度量的完整性,并统一从忠实性、下游应用和基于模型的方法等多个角度出发的度量,展示了显式表达结构的合成数据生成器在小型数据集上的卓越表现。
Mar, 2024
大量的表格数据由于隐私、数据质量和数据共享限制而未完全利用。本文介绍了 ProgSyn,这是第一个可编程的合成表格数据生成算法,它允许对生成的数据进行全面的自定义。通过在原始数据集上进行预训练并根据提供的规范进行差分可微损失函数的微调,ProgSyn 可以确保高质量的数据并满足自定义规范。实验评估结果表明,ProgSyn 在多个约束条件下取得了新的最先进水平,并且具有广泛的适用性。综合而言,ProgSyn 为生成受限制的合成表格数据提供了灵活、易用的框架,允许规范超越先前的工作的能力。
Jul, 2023
该文章综合介绍了最近在通过深度生成模型生成合成数据方面的研究进展,重点关注表格数据集。我们特别概述了在隐私敏感数据背景下合成数据生成的重要性。此外,我们强调了使用深度生成模型相对于其他方法的优势,并详细解释了底层概念,包括无监督学习、神经网络和生成模型。该论文涵盖了在对表格数据集使用深度生成模型时涉及的挑战和考虑因素,如数据归一化、隐私问题和模型评估。本综述为对合成数据生成及其应用感兴趣的研究人员和实践者提供了有价值的资源。
Jul, 2023
合成数据生成是一种通过解决数据稀缺性和隐私问题、实现前所未有的性能而在数据科学领域引起了一场转变的生成人工智能的基石。本文介绍了用于分析的合成数据生成框架,该框架利用了统计方法在高保真度合成数据上的运用,这些数据由诸如表扩散和预训练生成转换模型等先进模型生成,并通过相关研究得到进一步的改进。通过三个案例研究:文本情感分析、结构化数据预测建模和表格数据推断,我们证明了该框架在传统方法之上的有效性,强调了合成数据生成在数据科学中的转化潜力。
Oct, 2023
本文研究了通过模式的凸组合生成合成数据以及在半监督学习框架中利用这些数据作为无监督信息的效果,以支持小的高维度数据集和不平衡学习问题,而无需标记合成示例。作者在 53 个二元分类数据集上进行实验,结果表明该方法支持半监督学习中的聚类假设,对于小型高维度数据集和不平衡学习问题表现出色。
Mar, 2019
利用扩散模型和大型语言模型的新型综合器进行对比评估,提出了一套评估指标,旨在解决现有评估指标的局限性,并为调优提供了普遍目标,以保护数据隐私和提高合成数据的质量。
Feb, 2024