本篇研究探讨使用数据增强方法,如 mixup 和 syntax-breaking,对于用于源代码语言的训练数据的质量提升,结果表明这些方法可以产生更准确和稳健的模型。
Mar, 2023
本文综述了数据增强的三个类别:释义、加噪和采样,以及在 NLP 中的应用和挑战。
Oct, 2021
对于时间序列分类中的数据增强技术进行了详细研究,包括对过去十年间超过百篇研究论文中六十种不同数据增强方法的全面评估,并提出了专为时间序列分类设计的创新分类法,同时针对数据特征给出了基于实验结果的准确和实用建议。
Oct, 2023
对话系统中的数据扩充方法提供了关键的方法来解决数据稀缺问题,并探讨了对话系统中的生成、评估等任务中的挑战与未来方向。
Sep, 2023
本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练,该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。
Feb, 2023
大型模型驱动的数据增强方法的综述,包括图像增强、文本增强和配对数据增强三个主要类别以及相关的数据后处理技术和应用领域,评估了大型模型驱动的数据增强在不同场景下的成功和限制,并提出了未来研究的挑战和方向。
Jan, 2024
在这篇论文中,我们挑战了传统数据增强方法的有效性,并表明经过更多时间的微调可以抵消数据增强的效果。我们还展示了零和少量数据生成方法通过对话代理(如 ChatGPT 或 LLama2)可以提高性能,从而总结出这种形式的数据增强仍然有效,即使传统方法不起作用。
Feb, 2024
本文旨在提高机器学习分类系统的泛化能力,通过对数据进行转换的方式来人工创建训练数据,从而增强数据的多样性,该文章就在「文本分类」中,对数据增强方法及其应用目标做了详细概述与分类,最终针对相关领域,提出建设性思路方向。
Jul, 2021
本文全面综述了 NLP 领域数据增强的文献,介绍了方法论、应用、挑战与未来方向,并提供了持续更新的文献列表。
May, 2021
数据增强是一系列通过操作现有数据样本生成高质量人工数据的技术,利用数据增强技术可以显著提高人工智能模型在涉及稀缺或不平衡数据集的任务中的适用性,从而大大提高模型的泛化能力。本文提出了一个更具启发性的分类法,该分类法涵盖了不同常见数据形式的数据增强技术,并通过一种统一的归纳方法对这些方法进行了分类。
May, 2024