学习最小方差特征通过标签增强
本论文研究数据增广技术 Mixup 的理论基础,指出 Mixup 可被解释为标准经验风险最小化估计器,通过数据转换和随机扰动来实现。该方法在测试时能够提高分类器性能,同时还获得了自校准和有效的正则化效果,以防止过度拟合和过度自信的预测。
Jun, 2020
通过引入训练时增强技术来增强泛化能力和准备深度神经网络对测试时的错误。在图像损坏方面,借鉴生成扩散模型的成功,我们提出了一种新方法,将数据增强(通过图像加噪和模糊)与标签平滑结合起来,以使预测的标签置信度与图像退化相一致。该方法实施简单,引入的开销微乎其微,并可以与现有的增强技术相结合。我们在 CIFAR 和 TinyImageNet 数据集的损坏图像基准上证明了其改进的鲁棒性和不确定性量化能力。
Jun, 2024
本文考察了一系列线性变换及其对于过参数化线性回归问题中的岭回归估计量的影响,证实了保留数据标签的变换能够通过扩大训练数据空间来提高估计精度,而混合数据的变换则能够达到一种正则化效果。在此基础上,提出一种根据模型不确定性搜索变换空间的数据增强方案,并在图像和文本数据集上测试,证实了其表现优于已有的 RandAugment 方法及能够达到现有 SoTA 方法的精度。
May, 2020
数据增强已成为视觉预训练模型的标准组成部分,用于捕捉增强视图之间的不变性。本研究通过实证研究来量化数据增强对性能的影响,发现图像的区域遮盖减少了学到的特征嵌入的不变性,同时提供了更多的多样性。手动注释不会改变学到的特征嵌入的不变性或多样性。MixUp 方法在多样性方面得到了显著改善,对不变性只有轻微的降低。
Oct, 2023
本文提供了理论分析,证明了使用 Mixup 在训练中如何帮助模型的鲁棒性和泛化性,表明最小化 Mixup 损失相当于大致最小化对抗性损失的上界,而对于泛化性我们证明了 Mixup 数据增强对应于一种特定类型的数据自适应正则化,从而减少了过拟合。
Oct, 2020
本文提出一种基于自适应学习的 mixup 方法,采用实例专属标签平滑技术,通过数据增强技术产生更具适应性和友好性的假样本用于文本分类,实验证明该方法显著提高了分类精度和模型的泛化能力。
May, 2023
本文研究了应对 “学习有噪音标签” 问题的多种数据增广策略,通过在 CIFAR-10、CIFAR-100 和 Clothing1M 等数据集上的实验,发现在 warm-up 阶段和学习阶段使用不同的增广策略能够最有效地提高 DNNs 的鲁棒性,同时也提出了一种关于样本筛选的增广方法,该方法在对真实噪音数据集进行处理时比其他基线方法取得了更好的结果。
Mar, 2021
本文介绍了几种新颖的深度学习训练技术,如广义模型无关课程学习方法和级联加和增强方法,它们不仅能够提高训练效率并改善深度网络训练过程中的优化平滑度、鲁棒性,而且还能够为计算机视觉任务提供更好的预测性能和模型稳健性。
Nov, 2022