扩展合成：从有限样本生成大规模数据集

Jun, 2024

扩展合成：从有限样本生成大规模数据集

Expansive Synthesis: Generating Large-Scale Datasets from Minimal Samples

Vahid Jebraeeli, Bo Jiang, Hamid Krim, Derya Cansever

TL;DR通过 Expansive Synthesis 模型，从有限样本中生成大规模、高保真度的数据集，提供解决数据稀缺问题的鲁棒方案，为机器学习应用中的数据提供了更强可用性的途径。

Abstract

The challenge of limited availability of data for training in machine learning arises in many applications and the impact on performance and generalization is serious. Traditional data augmentation methods aim to

limited availability of data data augmentation generative adversarial networks diffusion models expansive synthesis

发现论文，激发创造

通过后处理技术弥合差距：提升合成数据的效用

该论文提出了使用生成对抗网络生成综合数据集的新方法，并针对数据集的质量、多样性等问题提出了三种后处理技术，并引入了 GAP Filler 方法进行协调和优化，有效地提高了数据集在真实环境下的分类精度。

May, 2023

通过合成数据扩展提升数据分析能力

合成数据生成是一种通过解决数据稀缺性和隐私问题、实现前所未有的性能而在数据科学领域引起了一场转变的生成人工智能的基石。本文介绍了用于分析的合成数据生成框架，该框架利用了统计方法在高保真度合成数据上的运用，这些数据由诸如表扩散和预训练生成转换模型等先进模型生成，并通过相关研究得到进一步的改进。通过三个案例研究：文本情感分析、结构化数据预测建模和表格数据推断，我们证明了该框架在传统方法之上的有效性，强调了合成数据生成在数据科学中的转化潜力。

Oct, 2023

低样本图像生成的自适应特征插值

本文提出了一种新的潜在数据增强方法，利用无监督的学习方式在低数据量的情况下，针对生成模型中容易发散的问题进行了优化，实现了有效而稳定的训练，并生成了高质量的样本。实验结果显示，该方法在少样例学习生成任务中取得了很好的效果。

Dec, 2021

基于扩散模型的数据扩充技术

DistDiff 是一种基于分布感知扩散模型的有效数据扩充框架，通过构建分层原型来逼近真实数据分布，优化扩散模型中的潜在数据点，实现生成与目标分布一致的样本，从而在数据扩充任务中取得显著的改进。

Mar, 2024

增强社交网络广告预测的数据增强比较研究

通过生成模型的数据增强方法，本研究在社交网络广告领域解决了受限数据集及潜在偏差的问题，提升了模型性能，并提供了多个数据增强技术的相对表现对比，以指导从业者选择适合的技术来增强模型性能。

Apr, 2024

超越模型崩溃：通过合成数据实现规模扩展需要加强

使用反馈增强合成数据可以防止模型崩溃，验证了常见的方法，如 RLHF。

Jun, 2024

生成对抗网络集成用于合成训练数据生成

本文研究了在医学影像方面采用生成对抗网络（GANs）合成图像作为深度学习的训练数据来替代难以获取的真实数据集的可行性，同时探讨使用多个 GANs 以提高生成数据的差异性在数码病理学方面的应用。

Apr, 2021

GAN 的实例选择

本文提出了一种改进样本质量的新方法：在模型训练之前通过实例选择来改善经验数据分布，将模型容量重定向到高密度区域，从而提高样本保真度，降低模型容量要求和显著减少训练时间。

Jul, 2020

DOPING: GAN 生成数据增强用于无监督异常检测

本研究介绍了一种基于 GAN 和 AAE 的数据增强框架，可以应用于未监督的异常检测任务，并成功地解决了在高维数据分布与多模式分布中升采样极少发生正常事件的问题。

Aug, 2018

神经数据扩增通过样本外推

提出了一种基于神经扩展范例（Ex2）的数据增强方法，通过从某个分布中抽样得到的一些范例向该分布中生成新范例，应用于语言理解任务中，取得了在几个少样本学习基准上显著的优化结果。

Feb, 2021