数据增强对自然语言处理的泛化能力是否有所提升？

Apr, 2020

数据增强对自然语言处理的泛化能力是否有所提升？

Does Data Augmentation Improve Generalization in NLP?

Rohan Jha, Charles Lovering, Ellie Pavlick

TL;DR使用数据增强来鼓励模型更喜欢强特征，并且研究其对于特征学习的影响。在测试中，数据增强通常在起初起到反效果的作用，并且较难取代弱特征的强特征学习效果较差。

Abstract

neural models often exploit superficial features to achieve good performance, rather than deriving more general features. Overcoming this tendency is a central challenge in areas such as →

neural models representation learning data augmentation superficial features ml fairness

发现论文，激发创造

神经 NLP 数据增强

本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展，着重介绍了基于神经网络和变换器的方法，讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。

Feb, 2023

数据增强中的泛化鸿沟：来自光照的洞见

通过模拟分布退化，探究数据增强对模型性能的提升作用，研究发现数据增强方法显著改善了模型的性能，但仍存在明显的泛化差距，强调训练集中的特征多样性对于增强模型泛化能力的关键作用。

Apr, 2024

数据增强作为特征操作

本文研究数据增强对学习过程动态的影响，发现数据增强可以改变各种特征的相对重要性，特别是对于神经网络等非线性模型更为明显，可以被看作是特征操作。

Mar, 2022

在不平衡的文本数据集中使用增强技术是否能有效提高预测结果？

通过研究不均衡数据集，本文提出了不一定需要数据增广，而是可以通过调整分类器截断点来达到和过采样技术相同的效果。这一发现为处理不均衡数据提供了更好的方法选择建议。

Apr, 2023

数据增强再探讨：重新审视干净数据和扩充数据之间的分布差距

利用数据增强作为正则化方式，我们从解析角度重新考虑了数据增强在深度神经网络中的泛化问题，并发现它显著降低了模型泛化误差，但同时也导致略微增加了经验风险。使用较少的数据对完整增强的数据进行训练能够帮助模型更好地收敛于更好的区域，从而进一步提高准确性。

Sep, 2019

探索代码生成任务的数据增强技术

本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练，该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。

Feb, 2023

数据增强的潜力：领域泛化的视角

探索数据增强提高模型泛化效果的方法，从领域泛化的角度出发，揭示目前最先进数据增强方法的局限性，并探讨优化方法。结果表明，即使使用最好的数据增强技术，在训练时使用的扭曲操作也不能提供足够的鲁棒性，这表明了增强示例的未被开发的潜力。

Jul, 2020

探索社交媒体语料库上的数据增强方法

本研究探索了数据增强技术对文字分类的影响，使用多种数据增强技术，包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明，数据增强技术对模型性能只有轻微且不一致的改进，少数同义词替换可以提高模型性能，灰度缩放需要进一步研究，PTE 的表现优于监督学习，尤其是在类别容易分离的情况下。

Mar, 2023

智能增强 - 学习最优数据增强策略

本文介绍了一种名为 Smart Augmentation 的辅助方法，可以在训练神经网络时增加其准确性并减少过拟合。通过训练一种生成经过增强数据的网络，以减少目标网络的误差，实现了学习最小化网络误差的增强方式。Smart Augmentation 在所有测试数据集上均证明了提高准确性的潜力，并在多种测试情况下以显著较小的网络尺寸实现了类似或更好的性能水平。

Mar, 2017

自然语言处理中有限数据学习的数据增强实证调查

本文旨在系统评估了在有限标注数据情境下的 Natural Language Processing（NLP）中数据增强方法的进展和方法景观，总结了包括标记级别增强、句子级别增强、对抗性增强和隐藏空间增强等多种方法并在 11 个数据集上实验，分析了各种方法的适用情境，对 NLP 有限数据学习的挑战和未来方向进行了讨论。

Jun, 2021