DRUPI：使用特权信息进行数据集减缩

Oct, 2024

DRUPI：使用特权信息进行数据集减缩

DRUPI: Dataset Reduction Using Privileged Information

Shaobo Wang, Yantai Yang, Shuaiyu Zhang, Chenghao Sun, Weiya Li...

TL;DR本研究针对现有数据集减缩方法的不足，提出了一种新的数据集减缩方法DRUPI，通过合成特权信息来丰富减缩数据集，从而改善模型学习的效果。研究表明，适度的特征标签能够优化减缩数据集的效能，并在多个数据集上表现出显著的性能提升。

Abstract

Dataset Reduction (DR) seeks to select or distill samples from large datasets into smaller subsets while preserving performance on target tasks. Existing methods primarily focus on pruning or synthesizing data in the same format as the original dataset, typically the input data and cor

发现论文，激发创造

少样本学习: 计算机视觉统一数据子集选择与主动学习框架

本文介绍一种使用多样性模型的训练数据子集选择方法，该方法可提高计算机视觉任务的准确性并减少标注成本。

Jan, 2019

图像分类数据集中的语义冗余：你不需要的10%

研究发现，对于常见的基准数据集，可以找到可推广的子集，该子集在训练时与完整数据集相当。此结果可以发现CIFAR-10和ImageNet数据集中的显着冗余（至少10％），并且观察到所需图片和多余图片之间存在语义相关性，这可以鼓舞进一步研究以提高训练效率或数据收集。

Jan, 2019

多元化和消歧化：从未明确定义的数据中学习

我们提出了DivDis，这是一个简单的两阶段框架，它首先利用来自测试分布的未标记数据学习任务的多样性假设集，然后通过选择一个发现的假设来消除歧义，在图像分类和自然语言处理问题中可以发现使用鲁棒特征的假设。

Feb, 2022

使用特权信息来解释标签噪音的转移和边缘化方法

该论文提出了一种新的监督学习方法TRAM，通过权重共享传输特权信息以及在测试时大致消去特权信息来解释标签噪声，从而降低对噪声标签的有害影响。该方法可在不增加测试时间成本的情况下有效地应用于各项基准测试。

Feb, 2022

使用每个样本的梯度来减轻数据集偏差

研究一个名为PGD的去偏算法，该算法通过基于梯度的每个样本权重，使得训练数据在强相关属性存在时减少偏差，通过比较各种数据集，该算法表现出了分类任务的最新最先进的准确性和理论解释。

May, 2022

基于分解的数据集精炼

本文研究了数据集蒸馏领域，并提出了一种被称为HaBa的数据集分解方法，其探索将数据集分解为数据幻象网络和基础部分，利用两者之间的灵活组合使蒸馏数据具有指数信息增益，进一步提高了数据压缩结果的数据有效性和对跨体系结构的泛化能力。

Oct, 2022

压缩、恢复和重新标记: 新视角下的ImageNet规模数据集简化

SRe$^2$L是一种新的数据集压缩框架，可以在训练期间解耦模型和合成数据的双层优化，以处理各种规模的数据集、模型结构和图像分辨率，具有高分辨率训练、低训练成本和内存消耗，以及在任意评估网络结构下扩展的能力。

Jun, 2023

RandMSAugment：用于有限数据场景的混合采样增强

数据增强是一种有效训练深度卷积神经网络以限制数据的方法，本研究探讨了基础增强技术、如混合样本数据增强和无参数的RandAugment变体Preset-RandAugment，在完全监督的情境下证明了Preset-RandAugment在有限数据情况下的出色表现，通过引入一种名为RandMSAugment的新型数据增强技术，有效结合了现有方法的优势，在CIFAR-100、STL-10和Tiny-Imagenet数据集上取得了显著的性能提升，无需超参数调整和繁琐的优化过程。

Nov, 2023

可持续深度学习的数据减少方法深入分析

深度学习方面的研究，介绍了八种不同的数据减少方法和一个基于拓扑结构的代表性度量标准，探讨了这些方法对数据集的代表性、能源消耗和模型预测性能的影响。

Mar, 2024

样本不应平等使用：理解和改善数据集蒸馏

本研究针对数据集蒸馏（DD）中缺乏理论探索的问题，提出了一种样本难度的理解方法。通过对样本难度的实证分析，发现优先合成原始数据集中较易样本可以显著提高蒸馏数据集的质量，并引入了样本难度修正（SDC）方法，可作为现有技术的插件应用。实验结果显示，SDC在七种蒸馏方法和六个数据集上均能生成更高质量的蒸馏数据集。

Aug, 2024