响应性网络压缩中蒸馏质量的控制
本文提出了新型的知识蒸馏损失函数,其通过保留教师神经网络中相似输入的激活模式特征,指导学生神经网络的训练,使其在保留各自的表征空间中,能够准确地保持输入的相似度。实验结果表明了该方法的潜力。
Jul, 2019
本研究评估了知识蒸馏的有效性以及它对学生和教师体系的依赖性。发现较精确的教师并不一定是好教师,且大型模型并不总是更好的教师,这导致了容器不匹配的问题,本研究表明教师的训练中止可以缓解这种效应,这些结果适用于各种数据集和模型。
Oct, 2019
通过一系列的实验,我们发现知识蒸馏 (distillation) 在教师网络存在低置信度的点的时候,会使得学生网络的置信度更低,而之后引入知识蒸馏 (loss) 会恢复部分性能,同时我们提供了两种理论视角来理解这种现象,作为特征空间的正则化项和梯度去噪器。
Jan, 2023
本文提出了一个新的理论框架,探究了知识蒸馏的学生的普适性行为,并评估了在线蒸馏的效力。该框架突出了教师提供监督和学生的神经切线核之间的对齐度的复杂性之间微妙的相互作用,为蒸馏中流行的各种技术的效用提供了严密的理论基础。
Jan, 2023
本文研究交叉质量知识蒸馏(CQKD),该方法将使用全分辨率图像进行训练的教师网络的知识转移到以低分辨率图像作为输入的学生网络中。CQKD 在大规模图像分类问题上的表现优于监督学习,并强调了神经网络校准的重要性:我们表明,通过更高的温度平滑教师输出分布,学生分布会表现出更高的熵,从而导致更低的校准误差和更高的网络准确性。
Apr, 2023
本文介绍了一种新的知识蒸馏方法,使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识,并将其成功地传递到学生网络中,从而实现了在各种基准测试下的表现优异。
Jun, 2020
本论文从统计角度阐述了知识蒸馏的原理,即让一个简单的 “学生” 模型依据一个复杂的 “教师” 模型得到的标签概率分布进行训练,从而提高性能,并提出了一种新颖的与极端多分类检索技术相关的方法。
May, 2020
本文提出一种通过量化空间来传输知识、学习教师网络中的主视觉概念的知识蒸馏方法,通过对多种网络结构和常用基准数据集的广泛评估,证明了该方法优于现有的知识蒸馏方法。
Dec, 2019