MarginDistillation: 基于边际的 softmax 蒸馏
本文提出了一种增强版本的三元组损失函数,名为三元组蒸馏,在多个数据集上展示了其优于原始三元组损失函数的优越性,能够自适应地变化正负样本之间的间隔,从而更好地利用相似性信息来提高紧凑模型的性能。
May, 2019
这篇论文介绍了一种用蒸馏过程从大型模型中训练出的卷积学生架构,它可以实现 300 倍的推理加速和 39 倍的参数减少,有时学生模型的性能甚至超过了它的老师模型。
Sep, 2019
本论文提出了一种新的适应性损失函数,该函数强调错分特征向量以指导较有区别的特征学习,从而解决传统损失函数在面部识别中存在的问题,并在多个基准测试上取得了比其他先进替代方案更有效的实验结果。
Nov, 2019
提出了一种名为 “自蒸馏” 的卷积神经网络训练框架,通过将网络大小缩小而不是扩大来显著提高卷积神经网络的性能(准确性)。它与传统的知识蒸馏不同,后者是将预训练的教师神经网络的输出作为 softmax 层输出的近似值强制学生神经网络去逼近。该框架将知识内化到网络本身,对深度方面的可伸缩推理提供了灵活性,能够在资源有限的边缘设备上运行。
May, 2019
本文提出使用网络蒸馏来高效计算小型网络产生的图像嵌入,通过构建两个新的损失函数模拟深度教师网络向小型学生网络通信的机制,在多个数据集上验证我们的方法,得出小型学生网络计算的嵌入明显优于使用相似大小的标准网络计算的结果。其中在可移动设备上使用的 MobileNet-0.25 产生了 44.6% 的 Recall@1 结果。同时,研究了蒸馏嵌入的各种方面,包括提示和注意力层,半监督学习以及不同质量的蒸馏。
Apr, 2019
采用一种新的分布式基于核的元学习框架,使用无限宽的卷积神经网络,在数据集压缩中实现前沿的结果,通过对 MNIST,Fashion-MNIST,CIFAR-10,CIFAR-100 和 SVHN 等多个数据集的数据压缩进行初步分析,为数据如何与自然发生的数据不同提供了一些启示。
Jul, 2021
本文研究了特征蒸馏方法在网络压缩中的设计问题,并提出了一种新的特征蒸馏方法,其中蒸馏损失的设计使各个方面之间产生协同效应:老师变换,学生变换,蒸馏特征位置和距离函数。该方法在图像分类、目标检测和语义分割等多个任务中实现了显著的性能提升。
Apr, 2019
提出了一种通过结构模型蒸馏实现神经网络内存降低的方法,使用注意力转移,并提供了残差网络的 Pareto 曲线和表格,证明这种蒸馏方法在极少损失准确率的情况下能够显著节省内存并提升学生网络性能。
Nov, 2017
本文研究了深度卷积网络在人脸识别中的性能,发现网络的 “瓶颈” 结构对于迁移学习具有重要作用,并提出了一种解决方法,即用自助法取代随机子采样;同时还发现了表示范数和目标域判别能力之间的联系,并基于这些发现,在目前最流行的人脸识别数据集 LFW 上取得了优秀的性能,甚至超越了商用系统。
Jun, 2014