深度网络中的零样本知识蒸馏
提出了一种无需训练集的知识蒸馏方法,仅利用预训练模型释放的一些额外元数据,就能将大规模数据集上训练的深度神经网络压缩到其大小的一小部分,并探索了可用于该方法的不同类型的元数据以及使用它们所涉及的权衡。
Oct, 2017
本文介绍了一种组合使用低精度计算和蒸馏知识来提高深度学习网络性能的方法,该方法取得了 ImageNet 数据集上 ResNet 架构各种变体的三元精度和 4 位精度的准确率的最新成果,并提供了三种应用蒸馏知识技术到训练和部署流程中的方案。
Nov, 2017
通过使用对抗生成器训练学生模型,从而在没有任何数据或元数据的情况下,将来自大型教师网络的知识迁移到小型学生网络中,实现了零数据的跨数据集知识迁移,并在少样本下获得了比实际数据集的更好效果。
May, 2019
通过使用知识蒸馏技术,从大模型(教师模型)中提取信息,训练小模型(学生模型)可以解决将大型深度学习模型部署在移动设备和嵌入式设备上的问题。本文提出了一种基于蒸馏度量的比较不同知识蒸馏算法性能的新指标,并通过对知识蒸馏技术应用于深度学习模型进行调查,得出了一些有趣的结论。
Jul, 2020
本文介绍一种用于少样本知识蒸馏的双阶段方法,该方法仅使用了少量无标注样本,能够有效降低深度神经网络的模型复杂度和大小,实现了与传统方法相当的性能表现。
Dec, 2020
该研究提出一种基于决策边界的黑盒知识蒸馏方法(DB3),包括由教师决策边界构造软标签,以及生成伪样本以代表未知数据,皆不需要接触教师参数,结果表明该方法在各种基准网络和数据集上都表现出有效性。
Jun, 2021
我们提出了一种名为知识解释蒸馏(KED)的框架,通过引入超特征解释教师,允许学生不仅从教师的预测中学习,还从教师的解释中学习,以及使用卷积神经网络降低复杂性、隐藏表示蒸馏方法扩充和使用嵌套数据集来处理有限的训练数据,实验证明,KED学生可以显著优于类似复杂度的KD学生。
Oct, 2023
该研究解决了自监督预训练中缺乏有效数据集蒸馏的方法问题。研究者提出了一种新颖的方法,通过知识蒸馏的视角来训练学生模型,以匹配教师模型的表示,从而生成小型合成数据集。实验结果表明,该方法的合成数据集在下游任务上的准确率提高了最多13%。
Oct, 2024