自然语言处理中的数据增强方法综述
本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展,着重介绍了基于神经网络和变换器的方法,讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。
Feb, 2023
本文提出了一种基于多任务学习的数据增强方法,通过将目标句子的顺序进行颠倒等操作,产生不流畅的目标句子,作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明,该方法相对于以扩展经验数据分布为目标的传统数据增强方法,可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。
Sep, 2021
在这篇论文中,我们挑战了传统数据增强方法的有效性,并表明经过更多时间的微调可以抵消数据增强的效果。我们还展示了零和少量数据生成方法通过对话代理(如 ChatGPT 或 LLama2)可以提高性能,从而总结出这种形式的数据增强仍然有效,即使传统方法不起作用。
Feb, 2024
机器学习中的数据增强技术通过多样化训练示例来提高模型性能,本文调查了大型语言模型在自然语言处理和其他领域中对数据增强的转变影响,探讨了利用大型语言模型进行数据增强的各种策略以及所面临的挑战。
Mar, 2024
本文旨在提高机器学习分类系统的泛化能力,通过对数据进行转换的方式来人工创建训练数据,从而增强数据的多样性,该文章就在「文本分类」中,对数据增强方法及其应用目标做了详细概述与分类,最终针对相关领域,提出建设性思路方向。
Jul, 2021
该研究综述了针对源代码资料的数据增广方法,构建了一种源代码模型数据增广的分类方法,并探讨了代表性方法、优化策略、广泛接受的源代码场景和下游任务,以及未来研究的潜在挑战和可能性。
May, 2023
大型模型驱动的数据增强方法的综述,包括图像增强、文本增强和配对数据增强三个主要类别以及相关的数据后处理技术和应用领域,评估了大型模型驱动的数据增强在不同场景下的成功和限制,并提出了未来研究的挑战和方向。
Jan, 2024
数据增强(DA)在计算机视觉(CV)和自然语言处理(NLP)领域被广泛采用以提高模型性能,然而在网络环境中,尤其是在流量分类(TC)任务中,数据增强一直存在问题。本文通过对 3 个 TC 数据集使用数据包时间序列作为输入表示,并考虑多种训练条件,基准测试了 18 种增强函数,结果显示(i)DA 可以获得以前未探索的优势,(ii)基于时间序列顺序和掩码的增强函数更适用于 TC,(iii)简单的潜在空间分析可以提供有关增强效果的线索。
Jan, 2024