黑盒少样本知识蒸馏

Jul, 2022

Black-box Few-shot Knowledge Distillation

Dang Nguyen, Sunil Gupta, Kien Do, Svetha Venkatesh

TL;DR本文提出了一种黑盒少样本知识蒸馏方法，使用MixUp和条件变分自编码器生成多样的合成图像进行训练，显著优于最新SOTA的少/零样本KD方法用于图像分类任务。

Abstract

knowledge distillation (KD) is an efficient approach to transfer the knowledge from a large "teacher" network to a smaller "student" network. Traditional KD methods require lots of labeled training samples and a white-box teacher (parameters are accessible) to train a good student. How

发现论文，激发创造

使用未标记的不匹配图像进行知识蒸馏

本论文使用“不匹配”的未标记刺激来进行知识蒸馏，以达到图像分类网络的目的，并发现刺激复杂性是蒸馏表现良好的关键因素。

Mar, 2017

深度网络中的零样本知识蒸馏

本文提出了零数据知识迁移的方法，通过自动生成Data Impressions从而实现了基于Teacher模型的知识迁移，不需要获取原始数据，具有实用性和良好的泛化能力。

May, 2019

通过标签平滑正则化重新审视知识蒸馏

本文挑战了使用强大的teacher model教授弱student model的共识，详细阐述了KD和label smoothing regularization之间的关系，提出了Teacher-free Knowledge Distillation（Tf-KD）框架，通过自学和手动设计正则化分布，实现了与正常KD相媲美的性能。

Sep, 2019

准备教材: 利用更好的监督改进知识蒸馏

本研究提出了两种新颖的方法，知识调整（KA）和动态温度蒸馏（DTD），用于惩罚错误监督并改善学生模型，实验表明该方法在各种评测数据集上，以及与其他基于知识蒸馏的方法相结合时，都能获得鼓舞人心的表现。

Nov, 2019

神经网络比人类评分者更具生产力: 活跃混合用于从黑盒模型中进行数据效率知识蒸馏

本研究探讨如何使用知识蒸馏从黑盒模型中训练神经网络进行视觉识别，使用混合和主动学习等方法，从而在节省计算和数据集成本的同时保持高性能。

Mar, 2020

基于决策的黑盒模型的零-shot知识蒸馏

该研究提出一种基于决策边界的黑盒知识蒸馏方法（DB3），包括由教师决策边界构造软标签，以及生成伪样本以代表未知数据，皆不需要接触教师参数，结果表明该方法在各种基准网络和数据集上都表现出有效性。

Jun, 2021

知识蒸馏作为高效预训练：更快的收敛、更高的数据效率和更好的可迁移性

研究了一种名为Knowledge Distillation as Efficient Pre-training (KDEP)的替代预训练策略，旨在通过非参数特征维度对齐的基于特征的KD方法将先前已经训练好的模型的学习特征表示有效地转移到新的学生模型，实现在不需要大规模数据和较少预训练时间的情况下在三个下游任务和九个下游数据集中实现与有监督预训练的同等效果。

Mar, 2022

解耦式知识蒸馏

通过将传统的知识蒸馏 (KD) 损失重构为 TCKD 和 NCKD 两部分，本文证明了 logit distillation 方法的潜在价值，并提出了解耦知识蒸馏 (DKD) 方法以更高效地发挥 TCKD 和 NCKD 的作用，从而在图像分类和目标检测任务的 CIFAR-100、ImageNet 和 MS-COCO 数据集上取得了可比甚至更好的结果和更好的训练效率。

Mar, 2022

有监督的遮蔽知识蒸馏用于小样本变压器

本文提出了一种新的有监督掩蔽知识蒸馏模型(SMKD)，将标签信息融入到自我蒸馏框架中，通过在类和图块标记上进行内部类知识蒸馏，并引入在类内图像中对屏蔽图块标记重构的挑战性任务，我们比以前的自我监督方法实现了更好的结果，实验结果显示，我们的方法在四个few-shot分类基准数据集上的性能优于以往方法。

Mar, 2023

小规模无数据知识蒸馏

通过使用小规模逆置数据进行知识蒸馏，提高训练效率的数据无关知识蒸馏(SSD-KD)方法在图像分类和语义分割基准测试中展示了超强的性能和高效的训练。

Jun, 2024