数据集精炼中，一个标签胜过千张图片

Jun, 2024

数据集精炼中，一个标签胜过千张图片

A Label is Worth a Thousand Images in Dataset Distillation

Tian Qin, Zhiwei Deng, David Alvarez-Melis

TL;DR数据质量是机器学习模型性能的关键因素，数据集精馏方法通过将训练数据集压缩为保持相似下游性能的较小版本来利用数据质量。通过剔除实验，我们发现当前最先进的精馏方法的性能取决于使用软标签而不是生成合成数据的具体技术。此外，我们还发现软标签的有效性与每类图像的数量之间存在经验性规律，挑战了传统的数据集精馏方法，并提出了改进精馏方法的新方向。

Abstract

Data $\textit{quality}$ is a crucial factor in the performance of machine learning models, a principle that dataset distillation methods exploit by compressing training datasets into much smaller counterparts tha

发现论文，激发创造

软标签数据集蒸馏及文本数据集蒸馏

通过软标签同时提取图像和标签以减少数据集的大小，拓展算法至可用于文本数据，对于多个数据集和分类任务提高了2-4%的准确率。

Oct, 2019

数据集蒸馏: 学习标签而非图像

针对数据集蒸馏的问题，我们提出了用合成标签来训练模型，比基于图像的方法更为有效；我们引入了更加鲁棒和灵活的元学习算法以及一种基于凸优化层的一阶策略，这种新算法可以提高模型的性能，并且可兼容各个优化器及不同的神经结构。我们的研究发现，标签蒸馏还能夸数据集应用，例如只通过合成标签的英文字母来训练以学习日文字母识别。

Jun, 2020

基于偏差方差平衡的知识蒸馏软标签优化思考

本文研究了软标签蒸馏对偏差-方差平衡的影响，发现软标签的训练在样本层面上影响偏差-方差的平衡，并提出了加权软标签方法以适应样本层面的偏差-方差平衡，实验证明该方法有效。

Feb, 2021

在标签噪声存在的情况下理解自蒸馏

研究了在带有噪声标签的监督学习问题中，使用SD的效果，并在理论上和经验上表明，最优的SD参数在某些情况下大于1，证明SD比优化有用，并在二元分类和随机标签损坏的情况下证明了学生比教师有更好的准确性。

Jan, 2023

探索基于样本原型的软标签数据蒸馏对不平衡数据分类的潜力

该研究以实际数据集为基础，探索一种简单的数据精炼技术在原型软标签精炼中的潜力，通过集成优化步骤以提高分类准确性，并对不平衡度不同的数据集进行实验验证，发现该方法在数据精炼和数据增强方面的能力。

Mar, 2024

GIFT：在接近零成本的缩减数据集中挖掘标签的全部潜力

近期关于数据集蒸馏的研究表明，采用预训练教师模型生成的软标签具有显著优势。本文从一个新的角度强调标签的充分利用。我们首先对用于数据集蒸馏的软标签利用的各种损失函数进行了全面比较，发现在合成数据集上训练的模型对于损失函数的选择具有很高的敏感性。这一发现凸显了在合成数据集上训练模型所需的通用损失函数的必要性。基于这些认识，我们引入了一种极其简单却出奇有效的即插即用方法GIFT，它包括软标签的优化和基于余弦相似性的损失函数，以有效利用全面的标签信息。大量的实验证明，GIFT方法始终提升了各种规模的数据集蒸馏方法的最新水平，而不增加额外的计算成本。例如，在ImageNet-1K上，当IPC = 10时，GIFT在ConvNet和ResNet-18上分别将SOTA方法RDED的性能提升了3.9%和1.8%。

May, 2024

样本不应平等使用：理解和改善数据集蒸馏

本研究针对数据集蒸馏（DD）中缺乏理论探索的问题，提出了一种样本难度的理解方法。通过对样本难度的实证分析，发现优先合成原始数据集中较易样本可以显著提高蒸馏数据集的质量，并引入了样本难度修正（SDC）方法，可作为现有技术的插件应用。实验结果显示，SDC在七种蒸馏方法和六个数据集上均能生成更高质量的蒸馏数据集。

Aug, 2024

标签增强数据集蒸馏

本研究解决了传统数据集蒸馏忽视标签作用的问题，提出了一种新的标签增强数据集蒸馏框架（LADD）。通过生成额外的密集标签，LADD显著提高了训练效率和准确性，实验结果显示其相较于现有方法在计算开销和准确性方面均有显著提升，平均准确率提高14.9%。

Sep, 2024

大规模软标签对于大规模数据集蒸馏是否必要？

本研究探讨了大规模软标签在大规模数据集蒸馏中的必要性，重点解决了压缩数据集时类内相似性过高的问题。通过在图像合成过程中引入类级监督，显著提高了类内多样性，从而减少了软标签的需求。研究表明，采用这种方法时，所需软标签的大小可以从113 GB压缩到2.8 GB，同时性能提升了2.6%。

Oct, 2024

神经网络中软标签与硬标签训练的理论分析

本文探讨了知识蒸馏中软标签训练为何需要显著少于硬标签训练的神经元数量。研究表明，软标签训练在准确性上持续优于硬标签训练，特别是在数据集难度增加时，且理论上证明软标签训练的神经元需求可低至$O\left(\frac{1}{\gamma^2 \epsilon}\right)$，而硬标签训练则高达$O\left(\frac{1}{\gamma^4} \cdot \ln\left(\frac{1}{\epsilon}\right)\right)$，显示了其在分类困难场景下的优势。

Dec, 2024