黑盒少样本知识蒸馏
本文提出了零数据知识迁移的方法,通过自动生成Data Impressions从而实现了基于Teacher模型的知识迁移,不需要获取原始数据,具有实用性和良好的泛化能力。
May, 2019
本文挑战了使用强大的teacher model教授弱student model的共识,详细阐述了KD和label smoothing regularization之间的关系,提出了Teacher-free Knowledge Distillation(Tf-KD)框架,通过自学和手动设计正则化分布,实现了与正常KD相媲美的性能。
Sep, 2019
本研究提出了两种新颖的方法,知识调整(KA)和动态温度蒸馏(DTD),用于惩罚错误监督并改善学生模型,实验表明该方法在各种评测数据集上,以及与其他基于知识蒸馏的方法相结合时,都能获得鼓舞人心的表现。
Nov, 2019
本研究探讨如何使用知识蒸馏从黑盒模型中训练神经网络进行视觉识别,使用混合和主动学习等方法,从而在节省计算和数据集成本的同时保持高性能。
Mar, 2020
该研究提出一种基于决策边界的黑盒知识蒸馏方法(DB3),包括由教师决策边界构造软标签,以及生成伪样本以代表未知数据,皆不需要接触教师参数,结果表明该方法在各种基准网络和数据集上都表现出有效性。
Jun, 2021
研究了一种名为Knowledge Distillation as Efficient Pre-training (KDEP)的替代预训练策略,旨在通过非参数特征维度对齐的基于特征的KD方法将先前已经训练好的模型的学习特征表示有效地转移到新的学生模型,实现在不需要大规模数据和较少预训练时间的情况下在三个下游任务和九个下游数据集中实现与有监督预训练的同等效果。
Mar, 2022
通过将传统的知识蒸馏 (KD) 损失重构为 TCKD 和 NCKD 两部分,本文证明了 logit distillation 方法的潜在价值,并提出了解耦知识蒸馏 (DKD) 方法以更高效地发挥 TCKD 和 NCKD 的作用,从而在图像分类和目标检测任务的 CIFAR-100、ImageNet 和 MS-COCO 数据集上取得了可比甚至更好的结果和更好的训练效率。
Mar, 2022
本文提出了一种新的有监督掩蔽知识蒸馏模型(SMKD),将标签信息融入到自我蒸馏框架中,通过在类和图块标记上进行内部类知识蒸馏,并引入在类内图像中对屏蔽图块标记重构的挑战性任务,我们比以前的自我监督方法实现了更好的结果,实验结果显示,我们的方法在四个few-shot分类基准数据集上的性能优于以往方法。
Mar, 2023