探索代码生成任务的数据增强技术

ACLFeb, 2023

探索代码生成任务的数据增强技术

Exploring Data Augmentation for Code Generation Tasks

Pinzhen Chen, Gerasimos Lampouras

TL;DR本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练，该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。

Abstract

Advances in natural language processing, such as transfer learning from pre-trained language models, have impacted how models are trained for pro

natural language processing transfer learning programming language tasks data utilization augmentation methods

发现论文，激发创造

利用生成式语言模型进行神经机器翻译的数据增强

通过利用大规模语言模型如 ChatGPT，我们探索了基于提示的数据增强方法，用于产生合成的平行语料库，比较了三种不同提示的方法，并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本，与后向翻译等其他增强方法相比，提高了未增强基线的 0.68 BLEU 分数。

Jul, 2023

数据增强在源代码学习中的应用：一项实证研究

本篇研究探讨使用数据增强方法，如 mixup 和 syntax-breaking，对于用于源代码语言的训练数据的质量提升，结果表明这些方法可以产生更准确和稳健的模型。

Mar, 2023

基于神经网络的代码理解的重要性导向数据增强

通过引入通用的数据增强框架 GenCode，该论文提出了一种用于增强代码理解模型训练的方法，通过代码转换技术生成新的代码候选项，并利用重要性度量选择重要的代码作为训练数据，实验证明 GenCode 相比 MixCode 增强方法，在平均准确率上提高了 2.92% 并且在鲁棒性方面提高了 4.90%。

Feb, 2024

神经 NLP 数据增强

本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展，着重介绍了基于神经网络和变换器的方法，讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。

Feb, 2023

探索代码搜索中的表示层增广

本研究提出了一种在表示级别进行数据增强的方法来提高代码搜索模型的性能，其中包括三种新的增强方法，并理论和实验评估了这些方法的优势。

Oct, 2022

大模型时代的数据增强调查

大型模型驱动的数据增强方法的综述，包括图像增强、文本增强和配对数据增强三个主要类别以及相关的数据后处理技术和应用领域，评估了大型模型驱动的数据增强在不同场景下的成功和限制，并提出了未来研究的挑战和方向。

Jan, 2024

AuGPT：使用辅助任务和数据增强进行端到端对话的预训练语言模型

为了解决注意力语言模型在任务导向对话中的缺陷，这篇论文引入了修改过的训练目标和巨量数据增强技术，研究数据来源的多重组合方式，并通过人工和自动评估证明了方法的高效性，取得了与最先进技术的竞争性表现。

Feb, 2021

GenAug：用于微调文本生成器的数据增强

本研究探索了一种名为 GenAug 的文本生成数据增强方法，利用包括外部知识在内的各种增强方法在 Yelp 评论的子集上进行 GPT-2 微调，并研究了增强数量与生成文本质量之间的关系，实验表明插入字符级合成噪声和使用上位词进行关键词替换是有效的增强方法，生成质量在原始数据量的三倍左右达到峰值。

Oct, 2020

探索社交媒体语料库上的数据增强方法

本研究探索了数据增强技术对文字分类的影响，使用多种数据增强技术，包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明，数据增强技术对模型性能只有轻微且不一致的改进，少数同义词替换可以提高模型性能，灰度缩放需要进一步研究，PTE 的表现优于监督学习，尤其是在类别容易分离的情况下。

Mar, 2023

利用数据增强技术进行过程信息提取

研究了数据增强在自然语言文本中的应用，发现它对于从自然语言文本中生成业务流程模型的机器学习方法至关重要，并且可以提高提取准确性。

Apr, 2024