该论文提出了使用生成对抗网络生成综合数据集的新方法,并针对数据集的质量、多样性等问题提出了三种后处理技术,并引入了 GAP Filler 方法进行协调和优化,有效地提高了数据集在真实环境下的分类精度。
May, 2023
合成数据生成是一种通过解决数据稀缺性和隐私问题、实现前所未有的性能而在数据科学领域引起了一场转变的生成人工智能的基石。本文介绍了用于分析的合成数据生成框架,该框架利用了统计方法在高保真度合成数据上的运用,这些数据由诸如表扩散和预训练生成转换模型等先进模型生成,并通过相关研究得到进一步的改进。通过三个案例研究:文本情感分析、结构化数据预测建模和表格数据推断,我们证明了该框架在传统方法之上的有效性,强调了合成数据生成在数据科学中的转化潜力。
Oct, 2023
本文提出了一种新的潜在数据增强方法,利用无监督的学习方式在低数据量的情况下,针对生成模型中容易发散的问题进行了优化,实现了有效而稳定的训练,并生成了高质量的样本。实验结果显示,该方法在少样例学习生成任务中取得了很好的效果。
Dec, 2021
DistDiff 是一种基于分布感知扩散模型的有效数据扩充框架,通过构建分层原型来逼近真实数据分布,优化扩散模型中的潜在数据点,实现生成与目标分布一致的样本,从而在数据扩充任务中取得显著的改进。
Mar, 2024
通过生成模型的数据增强方法,本研究在社交网络广告领域解决了受限数据集及潜在偏差的问题,提升了模型性能,并提供了多个数据增强技术的相对表现对比,以指导从业者选择适合的技术来增强模型性能。
Apr, 2024
使用反馈增强合成数据可以防止模型崩溃,验证了常见的方法,如 RLHF。
Jun, 2024
本文研究了在医学影像方面采用生成对抗网络(GANs)合成图像作为深度学习的训练数据来替代难以获取的真实数据集的可行性,同时探讨使用多个 GANs 以提高生成数据的差异性在数码病理学方面的应用。
Apr, 2021
本文提出了一种改进样本质量的新方法:在模型训练之前通过实例选择来改善经验数据分布,将模型容量重定向到高密度区域,从而提高样本保真度,降低模型容量要求和显著减少训练时间。
Jul, 2020
本研究介绍了一种基于 GAN 和 AAE 的数据增强框架,可以应用于未监督的异常检测任务,并成功地解决了在高维数据分布与多模式分布中升采样极少发生正常事件的问题。
Aug, 2018
提出了一种基于神经扩展范例(Ex2)的数据增强方法,通过从某个分布中抽样得到的一些范例向该分布中生成新范例,应用于语言理解任务中,取得了在几个少样本学习基准上显著的优化结果。
Feb, 2021