VanillaKD: 从小规模到大规模重返纯净知识蒸馏的威力
提出了一种新的方法,通过利用训练教师网络内在归一化层的统计信息来训练生成图像模型,从而在没有训练数据的情况下实现知识迁移、模型压缩和半监督学习,该方法在 CIFAR-10 和CIFAR-100 数据集上表现出色,并能够将其扩展到 ImageNet 数据集。
Dec, 2020
本文介绍了一种用于减小大规模计算机视觉模型尺寸、同时不影响性能的知识蒸馏方法,并且明确了影响该方法有效性的设计选择。通过全面的实验研究,我们在多种视觉数据集上获得了令人信服的结果,并实现了在ImageNet数据集上的ResNet-50模型的最新表现,其top-1准确率为82.8%。
Jun, 2021
研究了一种名为Knowledge Distillation as Efficient Pre-training (KDEP)的替代预训练策略,旨在通过非参数特征维度对齐的基于特征的KD方法将先前已经训练好的模型的学习特征表示有效地转移到新的学生模型,实现在不需要大规模数据和较少预训练时间的情况下在三个下游任务和九个下游数据集中实现与有监督预训练的同等效果。
Mar, 2022
通过将传统的知识蒸馏 (KD) 损失重构为 TCKD 和 NCKD 两部分,本文证明了 logit distillation 方法的潜在价值,并提出了解耦知识蒸馏 (DKD) 方法以更高效地发挥 TCKD 和 NCKD 的作用,从而在图像分类和目标检测任务的 CIFAR-100、ImageNet 和 MS-COCO 数据集上取得了可比甚至更好的结果和更好的训练效率。
Mar, 2022
本文提出了一种基于标准化的知识蒸馏方法(NormKD),通过自定义每个样本的温度来提高知识蒸馏的效果,并在图像分类的任务中表现出明显的优越性。此外,NormKD可轻松应用于其他基于logit的方法,并达到接近或甚至超越基于特征的方法的性能。
Aug, 2023
通过使用居中核对齐方法比较异构教师和学生模型之间的特征学习情况,我们观察到显著的特征差异,进而揭示了以往基于暗示的方法在跨体系结构蒸馏中的无效性。为了解决在异构模型蒸馏中的挑战,我们提出了一种简单而有效的一对多蒸馏框架(OFA-KD),通过将中间特征投影到对齐的潜空间(如logits空间)中,丢弃体系结构特定信息,并引入自适应目标增强方案来防止学生受到无关信息的干扰。通过多种体系结构的广泛实验,包括CNN、Transformer和MLP,证明了我们OFA-KD框架在实现异构体系结构蒸馏方面的优势。具体而言,在使用我们的OFA-KD框架后,学生模型在CIFAR-100数据集上最多提高了8.0%,在ImageNet-1K数据集上提高了0.7%。
Oct, 2023
用于大规模真实数据集的数据集压缩方法RDED能够在短短7分钟内将完整的ImageNet-1K压缩为每类只有10张图像的小型数据集,并在单个RTX-4090 GPU上以42%的Top-1精度实现了显著的性能提升(而目前最先进方法仅达到21%的精度,且需要6小时)。
Dec, 2023
通过集成知识蒸馏技术,本文探讨在数据修剪过程中的应用,证明了使用简单随机修剪方法优于复杂的修剪方法,并研究了修剪程度与知识蒸馏权重的关系,以及教师网络规模对准确性的影响。
Mar, 2024
本研究解决了如何利用预训练的视觉变换器(ViT)模型作为教师,推动跨架构知识蒸馏(KD)研究的可扩展性问题。提出了一种简单有效的KD方法ScaleKD,通过三种耦合组件的组合,显著提高了学生模型在各类图像分类任务上的表现,具备更高的效率和更大的模型利得。
Nov, 2024