本文提出了一种黑盒少样本知识蒸馏方法,使用 MixUp 和条件变分自编码器生成多样的合成图像进行训练,显著优于最新 SOTA 的少 / 零样本 KD 方法用于图像分类任务。
Jul, 2022
本文提出了零数据知识迁移的方法,通过自动生成 Data Impressions 从而实现了基于 Teacher 模型的知识迁移,不需要获取原始数据,具有实用性和良好的泛化能力。
May, 2019
本研究提出了一个基于多元正态分布的数据自由知识蒸馏方法,该方法从过度参数化神经网络中模拟中间特征空间并利用软目标标签生成伪样本以作为转换集。使用这些合成的转移集训练多个学生网络,表现出与使用原始训练集和其他无数据知识蒸馏方法训练的网络相当的竞争性能。
Apr, 2021
提出了一种新的查询高效知识蒸馏方法(QEKD),可以从黑盒模型 API 中进行查询有效学习,不需要实际数据,并在不同实际数据集上展现出良好性能。
May, 2022
该论文提出了一种新的知识蒸馏方法,通过在教师模型与学生模型差异较大的地方提取知识,在生成新的辅助样本的过程中改善学生模型的性能,从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。
Jan, 2023
这篇论文提供了一份全面的知识蒸馏调查,包括知识类别、蒸馏方案和算法,以及一些性能比较的实证研究。
Jun, 2023
本文研究知识迁移领域的另一种方法:Born-Again Networks (BANs),将学生的参数与老师的相同, 来达到比老师更好的性能表现。在计算机视觉和语言建模任务中, BANs 表现出甚至比老师高出许多的性能得分,并且在各种规模的学生中,将知识从 DenseNets 到 ResNets 和反向传输,都显示出明显的优势
May, 2018
本研究探讨了知识蒸馏的三个不同层次 —— 宇宙,领域以及实例,发现这三个因素在知识蒸馏中起着重要作用,并在大量实证研究基础上,诊断了某些知识蒸馏应用失败的情况。
Feb, 2020
深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移,本研究通过实验探究了蒸馏过程对于信息损失的影响,并提出了一种优化配置方法。
Nov, 2023
使用知识蒸馏技术将深度神经网络转换成决策树,以同时实现较好的性能和可解释性,并比基准决策树模型获得显著更高的精度,在 TensorFlow 平台上实现对大数据集的可扩展性。
Dec, 2018