生成数据增强的统一框架：综合调查

Sep, 2023

生成数据增强的统一框架：综合调查

A Unified Framework for Generative Data Augmentation: A Comprehensive Survey

Yunhao Chen, Zihui Yan, Yunjie Zhu

TL;DR毕业论文提供了生成式数据增强（GDA）领域的全面调研和统一框架，总结了关键方面以及它与合成数据生成的区别，并提出了研究方向，包括有效的数据选择、大规模模型应用的理论发展以及为 GDA 建立基准。

Abstract

generative data augmentation (GDA) has emerged as a promising technique to alleviate data scarcity in machine learning applications. This thesis presents a →

generative data augmentation machine learning comprehensive survey unified framework benchmark

发现论文，激发创造

DreamDA: 用扩散模型进行生成型数据增强

该论文提出了一个新的基于扩散模型的分类导向框架 DreamDA，通过考虑训练图像中的原始数据作为种子并扰动其反扩散过程，DreamDA 生成符合原始数据分布的多样样本，并引入自训练范式生成伪标签和使用合成数据训练分类器，在四个任务和五个数据集上进行的广泛实验证明了 DreamDA 在合成高质量多样的图像并生成准确标签方面的有效性。

Mar, 2024

自然语言处理中的数据增强方法综述

本文综述了数据增强的三个类别：释义、加噪和采样，以及在 NLP 中的应用和挑战。

Oct, 2021

关于生成对抗网络训练中的数据增强

本研究提出了一个称为 Data Augmentation Optimized for GAN (DAG) 的框架，用于在 GAN 训练中使用增强数据来改善原始分布的学习，通过理论分析表明该方法有效地利用增强数据来提高鉴别器和生成器的学习，并在自然图像和医疗图像数据集上证明了 DAG 的有效性和优越性。

Jun, 2020

增强社交网络广告预测的数据增强比较研究

通过生成模型的数据增强方法，本研究在社交网络广告领域解决了受限数据集及潜在偏差的问题，提升了模型性能，并提供了多个数据增强技术的相对表现对比，以指导从业者选择适合的技术来增强模型性能。

Apr, 2024

通识推理的生成式数据增广

该研究使用预先训练的语言模型和选择最有信息量和多样性的生成数据的方法，比基于后翻译的现有数据增强方法表现更好，并在低资源环境下获得了更准确和稳健的学习结果。

Apr, 2020

面向源代码模型的数据增强方法：综述

该研究综述了针对源代码资料的数据增广方法，构建了一种源代码模型数据增广的分类方法，并探讨了代表性方法、优化策略、广泛接受的源代码场景和下游任务，以及未来研究的潜在挑战和可能性。

May, 2023

视觉强化学习中数据增强的全面调查

本文提供了关于数据扩增在视觉强化学习中应用的广泛评论。作者提出了一个统一的框架，研究了数据扩增技术在视觉强化学习中的作用，并提供了一些方法来更好地利用扩增数据。最后，作者还通过系统的实证评估，总结了本文的研究内容及未来研究工作的展望。

Oct, 2022

时间序列分类的数据增强：一份综合调查

对于时间序列分类中的数据增强技术进行了详细研究，包括对过去十年间超过百篇研究论文中六十种不同数据增强方法的全面评估，并提出了专为时间序列分类设计的创新分类法，同时针对数据特征给出了基于实验结果的准确和实用建议。

Oct, 2023

探索适用于交通分类的生成式数据增强方法

该研究论文主要讨论在网络使用情况下，包括流量分类领域尚未推广的数据增强技术对性能的改进，通过研究 14 种手工制作的数据增强方法在 MIRAGE19 数据集上的初步研究结果显示，数据增强可以在流量分类方面带来未被发掘的好处，从而促进了自动化数据增强设计的研究议程。

Oct, 2023

数据增强已死，数据增强万岁

在这篇论文中，我们挑战了传统数据增强方法的有效性，并表明经过更多时间的微调可以抵消数据增强的效果。我们还展示了零和少量数据生成方法通过对话代理（如 ChatGPT 或 LLama2）可以提高性能，从而总结出这种形式的数据增强仍然有效，即使传统方法不起作用。

Feb, 2024