数据增强对自然语言处理的泛化能力是否有所提升?
本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展,着重介绍了基于神经网络和变换器的方法,讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。
Feb, 2023
通过模拟分布退化,探究数据增强对模型性能的提升作用,研究发现数据增强方法显著改善了模型的性能,但仍存在明显的泛化差距,强调训练集中的特征多样性对于增强模型泛化能力的关键作用。
Apr, 2024
通过研究不均衡数据集,本文提出了不一定需要数据增广,而是可以通过调整分类器截断点来达到和过采样技术相同的效果。这一发现为处理不均衡数据提供了更好的方法选择建议。
Apr, 2023
利用数据增强作为正则化方式,我们从解析角度重新考虑了数据增强在深度神经网络中的泛化问题,并发现它显著降低了模型泛化误差,但同时也导致略微增加了经验风险。使用较少的数据对完整增强的数据进行训练能够帮助模型更好地收敛于更好的区域,从而进一步提高准确性。
Sep, 2019
本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练,该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。
Feb, 2023
探索数据增强提高模型泛化效果的方法,从领域泛化的角度出发,揭示目前最先进数据增强方法的局限性,并探讨优化方法。结果表明,即使使用最好的数据增强技术,在训练时使用的扭曲操作也不能提供足够的鲁棒性,这表明了增强示例的未被开发的潜力。
Jul, 2020
本研究探索了数据增强技术对文字分类的影响,使用多种数据增强技术,包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明,数据增强技术对模型性能只有轻微且不一致的改进,少数同义词替换可以提高模型性能,灰度缩放需要进一步研究,PTE 的表现优于监督学习,尤其是在类别容易分离的情况下。
Mar, 2023
本文介绍了一种名为 Smart Augmentation 的辅助方法,可以在训练神经网络时增加其准确性并减少过拟合。通过训练一种生成经过增强数据的网络,以减少目标网络的误差,实现了学习最小化网络误差的增强方式。Smart Augmentation 在所有测试数据集上均证明了提高准确性的潜力,并在多种测试情况下以显著较小的网络尺寸实现了类似或更好的性能水平。
Mar, 2017
本文旨在系统评估了在有限标注数据情境下的 Natural Language Processing(NLP)中数据增强方法的进展和方法景观,总结了包括标记级别增强、句子级别增强、对抗性增强和隐藏空间增强等多种方法并在 11 个数据集上实验,分析了各种方法的适用情境,对 NLP 有限数据学习的挑战和未来方向进行了讨论。
Jun, 2021