响应性网络压缩中蒸馏质量的控制
本文提出了新型的知识蒸馏损失函数,其通过保留教师神经网络中相似输入的激活模式特征,指导学生神经网络的训练,使其在保留各自的表征空间中,能够准确地保持输入的相似度。实验结果表明了该方法的潜力。
Jul, 2019
本文提出使用L1范数优化从教师网络选取子图作为学生来自动搜索最优学生架构进行知识蒸馏,并在CIFAR数据集上验证,实验表明相比手动指定学生结构,学习得到的学生模型性能更好,并且对该学生模型进行可视化和理解。
Jan, 2020
通过使用教师网络的软输出作为向导进行学生网络的训练,知识蒸馏是模型压缩和知识转移的成功方法之一。本文通过分析一种宽神经网络的知识蒸馏,提出了一种称为数据效率的任务难度度量标准,并证明了在教师完美的情况下,教师软标签的高比例可以很有益处,并且在不完美的教师情况下,硬标签可以修正教师的错误预测,这解释了混合硬标签和软标签的实践。
Oct, 2020
研究知识蒸馏在神经网络中的应用。提出了一种基于注意力机制的组合技术,通过将教师网络和学生网络的信息进行融合,并且考虑每层的重要性,在中间层进行蒸馏。实验表明,该技术能够优于其他现有的技术。
Dec, 2020
使用半参数推断方法将知识蒸馏转换为目标学生模型、未知贝叶斯类概率和教师概率的plug-in估计值,引入交叉适应和损失校正两种方式来改善教师过度拟合和欠拟合对学生性能的影响,为标准蒸馏的预测误差提供了新的保证,并在表格式和图像数据上进行实证验证,观察到与知识蒸馏增强相关的一致改进。
Apr, 2021
研究表明,尽管知识蒸馏有助于学生网络提高推理能力,但通常情况下并不能完全符合教师模型的预测分布,而这往往是由于优化困难所导致的。此外,数据集的细节也影响着知识蒸馏的效果,更符合教师的结果不一定会带来更好的推理能力。
Jun, 2021
通过一系列的实验,我们发现知识蒸馏(distillation)在教师网络存在低置信度的点的时候,会使得学生网络的置信度更低,而之后引入知识蒸馏(loss)会恢复部分性能,同时我们提供了两种理论视角来理解这种现象,作为特征空间的正则化项和梯度去噪器。
Jan, 2023