数据增强在源代码学习中的应用：一项实证研究

Mar, 2023

数据增强在源代码学习中的应用：一项实证研究

Boosting Source Code Learning with Data Augmentation: An Empirical Study

Zeming Dong, Qiang Hu, Yuejun Guo, Zhenya Zhang, Maxime Cordy...

TL;DR本篇研究探讨使用数据增强方法，如 mixup 和 syntax-breaking，对于用于源代码语言的训练数据的质量提升，结果表明这些方法可以产生更准确和稳健的模型。

Abstract

The next era of program understanding is being propelled by the use of machine learning to solve software problems. Recent studies have shown surprising results of source code learning, which applies deep

machine learning source code learning data augmentation neural networks training data

发现论文，激发创造

MIXCODE: 基于 Mixup 的数据增强技术提升代码分类性能

本文提出了一种名为 MIXCODE 的数据增强方法，通过使用多个代码重构方法生成变换的代码，并使用 Mixup 技术将原始代码与变换后的代码混合以增加训练数据，从而在代码分类和缺陷检测等代码任务中有效地补充有效的训练数据，并使性能提高了 6.24％的准确度和 26.06％的健壮性。

Oct, 2022

面向源代码模型的数据增强方法：综述

该研究综述了针对源代码资料的数据增广方法，构建了一种源代码模型数据增广的分类方法，并探讨了代表性方法、优化策略、广泛接受的源代码场景和下游任务，以及未来研究的潜在挑战和可能性。

May, 2023

探索代码生成任务的数据增强技术

本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练，该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。

Feb, 2023

探索代码搜索中的表示层增广

本研究提出了一种在表示级别进行数据增强的方法来提高代码搜索模型的性能，其中包括三种新的增强方法，并理论和实验评估了这些方法的优势。

Oct, 2022

深度学习中的图像数据增强：综述

本文系统地综述了不同的图像数据增强方法，提出了分类学，分析了这些方法的优点和局限性，以及在三个典型的计算机视觉任务上所做的大量实验，包括语义分割，图像分类和物体检测。最后，我们讨论了数据增强面临的挑战以及未来的研究方向，以提出一些有用的研究指导。

Apr, 2022

大模型时代的数据增强调查

大型模型驱动的数据增强方法的综述，包括图像增强、文本增强和配对数据增强三个主要类别以及相关的数据后处理技术和应用领域，评估了大型模型驱动的数据增强在不同场景下的成功和限制，并提出了未来研究的挑战和方向。

Jan, 2024

文本分类数据增强调查

本文旨在提高机器学习分类系统的泛化能力，通过对数据进行转换的方式来人工创建训练数据，从而增强数据的多样性，该文章就在「文本分类」中，对数据增强方法及其应用目标做了详细概述与分类，最终针对相关领域，提出建设性思路方向。

Jul, 2021

基于神经网络的代码理解的重要性导向数据增强

通过引入通用的数据增强框架 GenCode，该论文提出了一种用于增强代码理解模型训练的方法，通过代码转换技术生成新的代码候选项，并利用重要性度量选择重要的代码作为训练数据，实验证明 GenCode 相比 MixCode 增强方法，在平均准确率上提高了 2.92% 并且在鲁棒性方面提高了 4.90%。

Feb, 2024

面向图机器学习的图数据增强：一项调查

本文介绍了现有的图形数据增强方法，并对文献进行了结构化概括。从数据、任务和学习的角度，我们首先介绍了三种不同的分类图形数据增强方法的方法。然后，我们介绍了不同方法和应用的最新进展，并总结了一些未解决的挑战和未来研究的方向。

Feb, 2022

利用通用数据增强改进深度学习

该研究基于对简单的 CNN 使用几何和光度扩增方案的试验性结果，通过 4 折交叉验证考察了不同的数据扩增方案，并证明 crop 扩增在几何扩增方案中可以显著提高 CNN 任务性能。

Aug, 2017