GIFT：在接近零成本的缩减数据集中挖掘标签的全部潜力

May, 2024

GIFT：在接近零成本的缩减数据集中挖掘标签的全部潜力

GIFT: Unlocking Full Potential of Labels in Distilled Dataset at Near-zero Cost

Xinyi Shang, Peng Sun, Tao Lin

TL;DR近期关于数据集蒸馏的研究表明，采用预训练教师模型生成的软标签具有显著优势。本文从一个新的角度强调标签的充分利用。我们首先对用于数据集蒸馏的软标签利用的各种损失函数进行了全面比较，发现在合成数据集上训练的模型对于损失函数的选择具有很高的敏感性。这一发现凸显了在合成数据集上训练模型所需的通用损失函数的必要性。基于这些认识，我们引入了一种极其简单却出奇有效的即插即用方法 GIFT，它包括软标签的优化和基于余弦相似性的损失函数，以有效利用全面的标签信息。大量的实验证明，GIFT 方法始终提升了各种规模的数据集蒸馏方法的最新水平，而不增加额外的计算成本。例如，在 ImageNet-1K 上，当 IPC = 10 时，GIFT 在 ConvNet 和 ResNet-18 上分别将 SOTA 方法 RDED 的性能提升了 3.9% 和 1.8%。

Abstract

Recent advancements in dataset distillation have demonstrated the significant benefits of employing soft labels generated by pre-trained teacher models. In this paper, we introduce a novel perspective by emphasiz

dataset distillation soft labels loss functions gift approach synthetic datasets

发现论文，激发创造

数据集精炼中，一个标签胜过千张图片

数据质量是机器学习模型性能的关键因素，数据集精馏方法通过将训练数据集压缩为保持相似下游性能的较小版本来利用数据质量。通过剔除实验，我们发现当前最先进的精馏方法的性能取决于使用软标签而不是生成合成数据的具体技术。此外，我们还发现软标签的有效性与每类图像的数量之间存在经验性规律，挑战了传统的数据集精馏方法，并提出了改进精馏方法的新方向。

Jun, 2024

软标签数据集蒸馏及文本数据集蒸馏

通过软标签同时提取图像和标签以减少数据集的大小，拓展算法至可用于文本数据，对于多个数据集和分类任务提高了 2-4% 的准确率。

Oct, 2019

数据集蒸馏：学习标签而非图像

针对数据集蒸馏的问题，我们提出了用合成标签来训练模型，比基于图像的方法更为有效；我们引入了更加鲁棒和灵活的元学习算法以及一种基于凸优化层的一阶策略，这种新算法可以提高模型的性能，并且可兼容各个优化器及不同的神经结构。我们的研究发现，标签蒸馏还能夸数据集应用，例如只通过合成标签的英文字母来训练以学习日文字母识别。

Jun, 2020

探索基于样本原型的软标签数据蒸馏对不平衡数据分类的潜力

该研究以实际数据集为基础，探索一种简单的数据精炼技术在原型软标签精炼中的潜力，通过集成优化步骤以提高分类准确性，并对不平衡度不同的数据集进行实验验证，发现该方法在数据精炼和数据增强方面的能力。

Mar, 2024

在严格预算下从相近任务中提炼知识以进行迁移学习

本文提出了一种名为 DistillNearest 和 DistillWeighted 的多源蒸馏方法，通过利用任务相似度度量来选择单个合适的源模型以及加权多源蒸馏方法，解决了在资源受限制的情况下，通过有限标签获取高效而准确识别系统的问题。通过实验验证表明，这两种方法在准确性、计算效率等方面优于传统的迁移学习和半监督学习方法。

Apr, 2023

基于偏差方差平衡的知识蒸馏软标签优化思考

本文研究了软标签蒸馏对偏差 - 方差平衡的影响，发现软标签的训练在样本层面上影响偏差 - 方差的平衡，并提出了加权软标签方法以适应样本层面的偏差 - 方差平衡，实验证明该方法有效。

Feb, 2021

数据集精简遇见可证明的子集选择

本文提出了一种在数据集精馏中初始化样品集的可证明的基于采样的方法，并将数据子集选择的思想与数据集精馏相结合，通过相对贡献的实例的概念优化性能。

Jul, 2023

利用样本间和特征间的关系进行数据集蒸馏

通过使用类居中约束和协方差匹配约束，提出的数据集精馏方法在解决分散特征分布和精确特征分布匹配两个主要限制方面表现出色，与相关方法相比，在 CIFAR10、SVHN、CIFAR100 和 TinyImageNet 上的性能提升分别达到最大为 6.6%、2.9%、2.5% 和 2.5%，并且在四个体系结构上保持稳定表现，最大性能降低为 1.7%。

Mar, 2024

Zipf 标签平滑的高效单次自蒸馏

该论文提出一种高效自蒸馏方法，名为 Zipf's Label Smoothing（Zipf 的 LS），可以提高预测准确性，使用 ResNet50 在 INAT21 细粒度分类数据集上，我们的技术实现比基准准确性提高了 +3.61％，并且比先前的标签平滑或自我蒸馏策略提高了 0.88％。

Jul, 2022

通过对抗预测匹配进行数据集压缩

用单层优化的对抗性框架，从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果，可以在最小的 GPU 内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。

Dec, 2023