BriefGPT.xyz
Ask
alpha
关键词
teacher-student
搜索结果 - 3
欠参数化的学生网络应该复制还是平均教师权重?
通过神经网络可以对任何连续函数进行无限接近的逼近,本文讨论了当函数本身是一个具有一层隐藏神经元和 k 个神经元的神经网络时,使用具有 n 个神经元的神经网络对 f * 进行逼近可以看作是将一个欠参数化的 “学生” 网络与一个具有 k 个神经
→
PDF
8 months ago
KDD
PrUE: 从稀疏教师网络中提炼知识
提出一种称为预测不确定性增大(PrUE)的剪枝方法,通过减弱教师网络的确定性,生成学生网络所需的软性预测,从而提高学生网络性能。在 CIFAR-10/100,Tiny-ImageNet 和 ImageNet 上进行的实验证明,使用稀疏的教师
→
PDF
2 years ago
通过自适应实例标准化进行知识蒸馏
本文提出了一种新的知识蒸馏方法,基于转移来自教师到学生的通道均值和方差等特征统计信息,以及新的适应性实例归一化损失,以提高模型压缩效果。
PDF
4 years ago
Prev
Next