数据增强在源代码学习中的应用:一项实证研究
本文提出了一种名为 MIXCODE 的数据增强方法,通过使用多个代码重构方法生成变换的代码,并使用 Mixup 技术将原始代码与变换后的代码混合以增加训练数据,从而在代码分类和缺陷检测等代码任务中有效地补充有效的训练数据,并使性能提高了 6.24%的准确度和 26.06%的健壮性。
Oct, 2022
该研究综述了针对源代码资料的数据增广方法,构建了一种源代码模型数据增广的分类方法,并探讨了代表性方法、优化策略、广泛接受的源代码场景和下游任务,以及未来研究的潜在挑战和可能性。
May, 2023
本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练,该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。
Feb, 2023
本文系统地综述了不同的图像数据增强方法,提出了分类学,分析了这些方法的优点和局限性,以及在三个典型的计算机视觉任务上所做的大量实验,包括语义分割,图像分类和物体检测。最后,我们讨论了数据增强面临的挑战以及未来的研究方向,以提出一些有用的研究指导。
Apr, 2022
大型模型驱动的数据增强方法的综述,包括图像增强、文本增强和配对数据增强三个主要类别以及相关的数据后处理技术和应用领域,评估了大型模型驱动的数据增强在不同场景下的成功和限制,并提出了未来研究的挑战和方向。
Jan, 2024
本文旨在提高机器学习分类系统的泛化能力,通过对数据进行转换的方式来人工创建训练数据,从而增强数据的多样性,该文章就在「文本分类」中,对数据增强方法及其应用目标做了详细概述与分类,最终针对相关领域,提出建设性思路方向。
Jul, 2021
通过引入通用的数据增强框架 GenCode,该论文提出了一种用于增强代码理解模型训练的方法,通过代码转换技术生成新的代码候选项,并利用重要性度量选择重要的代码作为训练数据,实验证明 GenCode 相比 MixCode 增强方法,在平均准确率上提高了 2.92% 并且在鲁棒性方面提高了 4.90%。
Feb, 2024
本文介绍了现有的图形数据增强方法,并对文献进行了结构化概括。从数据、任务和学习的角度,我们首先介绍了三种不同的分类图形数据增强方法的方法。然后,我们介绍了不同方法和应用的最新进展,并总结了一些未解决的挑战和未来研究的方向。
Feb, 2022
该研究基于对简单的 CNN 使用几何和光度扩增方案的试验性结果,通过 4 折交叉验证考察了不同的数据扩增方案,并证明 crop 扩增在几何扩增方案中可以显著提高 CNN 任务性能。
Aug, 2017