面向源代码模型的数据增强方法：综述

May, 2023

面向源代码模型的数据增强方法：综述

Data Augmentation Approaches for Source Code Models: A Survey

Terry Yue Zhuo, Zhou Yang, Zhensu Sun, Yufei Wang, Li Li...

TL;DR该研究综述了针对源代码资料的数据增广方法，构建了一种源代码模型数据增广的分类方法，并探讨了代表性方法、优化策略、广泛接受的源代码场景和下游任务，以及未来研究的潜在挑战和可能性。

Abstract

The increasingly popular adoption of source code in many critical tasks motivates the development of data augmentation (DA) techniques to enhance training data and improve various capabilities (e.g., robustness a

source code data augmentation models optimization challenges

发现论文，激发创造

数据增强在源代码学习中的应用：一项实证研究

本篇研究探讨使用数据增强方法，如 mixup 和 syntax-breaking，对于用于源代码语言的训练数据的质量提升，结果表明这些方法可以产生更准确和稳健的模型。

Mar, 2023

自然语言处理中的数据增强方法综述

本文综述了数据增强的三个类别：释义、加噪和采样，以及在 NLP 中的应用和挑战。

Oct, 2021

时间序列分类的数据增强：一份综合调查

对于时间序列分类中的数据增强技术进行了详细研究，包括对过去十年间超过百篇研究论文中六十种不同数据增强方法的全面评估，并提出了专为时间序列分类设计的创新分类法，同时针对数据特征给出了基于实验结果的准确和实用建议。

Oct, 2023

对话人工智能的数据增强

对话系统中的数据扩充方法提供了关键的方法来解决数据稀缺问题，并探讨了对话系统中的生成、评估等任务中的挑战与未来方向。

Sep, 2023

探索代码生成任务的数据增强技术

本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练，该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。

Feb, 2023

大模型时代的数据增强调查

大型模型驱动的数据增强方法的综述，包括图像增强、文本增强和配对数据增强三个主要类别以及相关的数据后处理技术和应用领域，评估了大型模型驱动的数据增强在不同场景下的成功和限制，并提出了未来研究的挑战和方向。

Jan, 2024

数据增强已死，数据增强万岁

在这篇论文中，我们挑战了传统数据增强方法的有效性，并表明经过更多时间的微调可以抵消数据增强的效果。我们还展示了零和少量数据生成方法通过对话代理（如 ChatGPT 或 LLama2）可以提高性能，从而总结出这种形式的数据增强仍然有效，即使传统方法不起作用。

Feb, 2024

文本分类数据增强调查

本文旨在提高机器学习分类系统的泛化能力，通过对数据进行转换的方式来人工创建训练数据，从而增强数据的多样性，该文章就在「文本分类」中，对数据增强方法及其应用目标做了详细概述与分类，最终针对相关领域，提出建设性思路方向。

Jul, 2021

自然语言处理数据增强方法综述

本文全面综述了 NLP 领域数据增强的文献，介绍了方法论、应用、挑战与未来方向，并提供了持续更新的文献列表。

May, 2021

数据增强综述

数据增强是一系列通过操作现有数据样本生成高质量人工数据的技术，利用数据增强技术可以显著提高人工智能模型在涉及稀缺或不平衡数据集的任务中的适用性，从而大大提高模型的泛化能力。本文提出了一个更具启发性的分类法，该分类法涵盖了不同常见数据形式的数据增强技术，并通过一种统一的归纳方法对这些方法进行了分类。

May, 2024