通过利用大规模语言模型如 ChatGPT,我们探索了基于提示的数据增强方法,用于产生合成的平行语料库,比较了三种不同提示的方法,并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本,与后向翻译等其他增强方法相比,提高了未增强基线的 0.68 BLEU 分数。
Jul, 2023
本篇研究探讨使用数据增强方法,如 mixup 和 syntax-breaking,对于用于源代码语言的训练数据的质量提升,结果表明这些方法可以产生更准确和稳健的模型。
Mar, 2023
通过引入通用的数据增强框架 GenCode,该论文提出了一种用于增强代码理解模型训练的方法,通过代码转换技术生成新的代码候选项,并利用重要性度量选择重要的代码作为训练数据,实验证明 GenCode 相比 MixCode 增强方法,在平均准确率上提高了 2.92% 并且在鲁棒性方面提高了 4.90%。
Feb, 2024
本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展,着重介绍了基于神经网络和变换器的方法,讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。
Feb, 2023
本研究提出了一种在表示级别进行数据增强的方法来提高代码搜索模型的性能,其中包括三种新的增强方法,并理论和实验评估了这些方法的优势。
Oct, 2022
大型模型驱动的数据增强方法的综述,包括图像增强、文本增强和配对数据增强三个主要类别以及相关的数据后处理技术和应用领域,评估了大型模型驱动的数据增强在不同场景下的成功和限制,并提出了未来研究的挑战和方向。
Jan, 2024
为了解决注意力语言模型在任务导向对话中的缺陷,这篇论文引入了修改过的训练目标和巨量数据增强技术,研究数据来源的多重组合方式,并通过人工和自动评估证明了方法的高效性,取得了与最先进技术的竞争性表现。
Feb, 2021
本研究探索了一种名为 GenAug 的文本生成数据增强方法,利用包括外部知识在内的各种增强方法在 Yelp 评论的子集上进行 GPT-2 微调,并研究了增强数量与生成文本质量之间的关系,实验表明插入字符级合成噪声和使用上位词进行关键词替换是有效的增强方法,生成质量在原始数据量的三倍左右达到峰值。
Oct, 2020
本研究探索了数据增强技术对文字分类的影响,使用多种数据增强技术,包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明,数据增强技术对模型性能只有轻微且不一致的改进,少数同义词替换可以提高模型性能,灰度缩放需要进一步研究,PTE 的表现优于监督学习,尤其是在类别容易分离的情况下。
研究了数据增强在自然语言文本中的应用,发现它对于从自然语言文本中生成业务流程模型的机器学习方法至关重要,并且可以提高提取准确性。
Apr, 2024