基于决策的黑盒模型的零 - shot 知识蒸馏

ICMLJun, 2021

基于决策的黑盒模型的零 - shot 知识蒸馏

Zero-Shot Knowledge Distillation from a Decision-Based Black-Box Model

Zi Wang

TL;DR该研究提出一种基于决策边界的黑盒知识蒸馏方法（DB3），包括由教师决策边界构造软标签，以及生成伪样本以代表未知数据，皆不需要接触教师参数，结果表明该方法在各种基准网络和数据集上都表现出有效性。

Abstract

knowledge distillation (KD) is a successful approach for deep neural network acceleration, with which a compact network (student) is trained by mimicking the softmax output of a pre-trained high-capacity network

knowledge distillation deep neural network black-box teacher soft label pseudo samples

发现论文，激发创造

黑盒少样本知识蒸馏

本文提出了一种黑盒少样本知识蒸馏方法，使用 MixUp 和条件变分自编码器生成多样的合成图像进行训练，显著优于最新 SOTA 的少 / 零样本 KD 方法用于图像分类任务。

Jul, 2022

深度网络中的零样本知识蒸馏

本文提出了零数据知识迁移的方法，通过自动生成 Data Impressions 从而实现了基于 Teacher 模型的知识迁移，不需要获取原始数据，具有实用性和良好的泛化能力。

May, 2019

软目标定向传输集成的无数据知识蒸馏

本研究提出了一个基于多元正态分布的数据自由知识蒸馏方法，该方法从过度参数化神经网络中模拟中间特征空间并利用软目标标签生成伪样本以作为转换集。使用这些合成的转移集训练多个学生网络，表现出与使用原始训练集和其他无数据知识蒸馏方法训练的网络相当的竞争性能。

Apr, 2021

QEKD: 基于黑盒模型的无数据查询知识蒸馏

提出了一种新的查询高效知识蒸馏方法（QEKD），可以从黑盒模型 API 中进行查询有效学习，不需要实际数据，并在不同实际数据集上展现出良好性能。

May, 2022

利用神经网络中的反向传播知识改进知识蒸馏

该论文提出了一种新的知识蒸馏方法，通过在教师模型与学生模型差异较大的地方提取知识，在生成新的辅助样本的过程中改善学生模型的性能，从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。

Jan, 2023

基于响应、特征和关系的知识蒸馏分类

这篇论文提供了一份全面的知识蒸馏调查，包括知识类别、蒸馏方案和算法，以及一些性能比较的实证研究。

Jun, 2023

再生神经网络

本文研究知识迁移领域的另一种方法：Born-Again Networks (BANs)，将学生的参数与老师的相同，来达到比老师更好的性能表现。在计算机视觉和语言建模任务中， BANs 表现出甚至比老师高出许多的性能得分，并且在各种规模的学生中，将知识从 DenseNets 到 ResNets 和反向传输，都显示出明显的优势

May, 2018

理解和改善知识蒸馏

本研究探讨了知识蒸馏的三个不同层次 —— 宇宙，领域以及实例，发现这三个因素在知识蒸馏中起着重要作用，并在大量实证研究基础上，诊断了某些知识蒸馏应用失败的情况。

Feb, 2020

知識蒸餾中的遺失

深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Nov, 2023

知识蒸馏提高深度神经网络的可解释性

使用知识蒸馏技术将深度神经网络转换成决策树，以同时实现较好的性能和可解释性，并比基准决策树模型获得显著更高的精度，在 TensorFlow 平台上实现对大数据集的可扩展性。

Dec, 2018