DRUPI:使用特权信息进行数据集减缩
研究发现,对于常见的基准数据集,可以找到可推广的子集,该子集在训练时与完整数据集相当。此结果可以发现CIFAR-10和ImageNet数据集中的显着冗余(至少10%),并且观察到所需图片和多余图片之间存在语义相关性,这可以鼓舞进一步研究以提高训练效率或数据收集。
Jan, 2019
我们提出了DivDis,这是一个简单的两阶段框架,它首先利用来自测试分布的未标记数据学习任务的多样性假设集,然后通过选择一个发现的假设来消除歧义,在图像分类和自然语言处理问题中可以发现使用鲁棒特征的假设。
Feb, 2022
该论文提出了一种新的监督学习方法TRAM,通过权重共享传输特权信息以及在测试时大致消去特权信息来解释标签噪声,从而降低对噪声标签的有害影响。该方法可在不增加测试时间成本的情况下有效地应用于各项基准测试。
Feb, 2022
研究一个名为PGD的去偏算法,该算法通过基于梯度的每个样本权重,使得训练数据在强相关属性存在时减少偏差,通过比较各种数据集,该算法表现出了分类任务的最新最先进的准确性和理论解释。
May, 2022
本文研究了数据集蒸馏领域,并提出了一种被称为HaBa的数据集分解方法,其探索将数据集分解为数据幻象网络和基础部分,利用两者之间的灵活组合使蒸馏数据具有指数信息增益,进一步提高了数据压缩结果的数据有效性和对跨体系结构的泛化能力。
Oct, 2022
SRe$^2$L是一种新的数据集压缩框架,可以在训练期间解耦模型和合成数据的双层优化,以处理各种规模的数据集、模型结构和图像分辨率,具有高分辨率训练、低训练成本和内存消耗,以及在任意评估网络结构下扩展的能力。
Jun, 2023
数据增强是一种有效训练深度卷积神经网络以限制数据的方法,本研究探讨了基础增强技术、如混合样本数据增强和无参数的RandAugment变体Preset-RandAugment,在完全监督的情境下证明了Preset-RandAugment在有限数据情况下的出色表现,通过引入一种名为RandMSAugment的新型数据增强技术,有效结合了现有方法的优势,在CIFAR-100、STL-10和Tiny-Imagenet数据集上取得了显著的性能提升,无需超参数调整和繁琐的优化过程。
Nov, 2023
深度学习方面的研究,介绍了八种不同的数据减少方法和一个基于拓扑结构的代表性度量标准,探讨了这些方法对数据集的代表性、能源消耗和模型预测性能的影响。
Mar, 2024
本研究针对数据集蒸馏(DD)中缺乏理论探索的问题,提出了一种样本难度的理解方法。通过对样本难度的实证分析,发现优先合成原始数据集中较易样本可以显著提高蒸馏数据集的质量,并引入了样本难度修正(SDC)方法,可作为现有技术的插件应用。实验结果显示,SDC在七种蒸馏方法和六个数据集上均能生成更高质量的蒸馏数据集。
Aug, 2024