通过自我知识蒸馏提高自我:特征细化
该论文研究了如何将大型神经网络中的结构信息转移到紧凑型神经网络中,以用于计算机视觉中的密集预测任务,提出了从大型神经网络到紧凑型神经网络的结构蒸馏算法,并通过三个密集预测任务的实验展示了方法的有效性。
Mar, 2019
提出了一种名为“自蒸馏”的卷积神经网络训练框架,通过将网络大小缩小而不是扩大来显著提高卷积神经网络的性能(准确性)。它与传统的知识蒸馏不同,后者是将预训练的教师神经网络的输出作为softmax层输出的近似值强制学生神经网络去逼近。该框架将知识内化到网络本身,对深度方面的可伸缩推理提供了灵活性,能够在资源有限的边缘设备上运行。
May, 2019
本文介绍了一种新的知识蒸馏方法,使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识,并将其成功地传递到学生网络中,从而实现了在各种基准测试下的表现优异。
Jun, 2020
本文提出了一种自监督增强的任务,通过辅助分类器在分层中间特征图中生成多样化的自监督知识,并执行一对一的转移来全面教授学生网络,从而改善表示能力而不失去正常分类能力。在多个网络对中,本方法都显著超过了之前的最佳结果,平均改进了2.56%(CIFAR-100)和0.77%(ImageNet)。
Jul, 2021
本文提出一种基于知识蒸馏的语义分割方法,通过引入Inter-class Distance Distillation (IDD)模块来转移特征空间中的跨类距离,同时利用位置信息蒸馏模块来提高学生网络的位置编码能力,实验结果表明,该方法可以大幅度提高语义分割模型的准确性,达到state-of-the-art的性能水平。
May, 2022
本文介绍了一种名为 DIST 的方法,它可以更好地从一个更强的教师模型中进行知识蒸馏,通过保留教师和学生之间的预测关系,提出了基于相关损失的方法,从而实现了最先进的性能。
May, 2022
本文提出了将Self-KD应用于图像混合(MixSKD)的方法,该方法能够将原始图像和混合图像之间的特征映射和概率分布相互蒸馏,以便以跨图像的知识指导网络的学习,实验表明该方法优于其他最先进的Self-KD和数据增强方法。
Aug, 2022
这篇论文提出了一种针对图像语义分割的新型知识蒸馏方法,称为Intra- and Inter-Class Knowledge Distillation(I2CKD)。该方法的重点是捕捉和转移教师(笨重模型)和学生(紧凑模型)的中间层之间的知识。为了进行知识提取,我们利用特征图生成了类原型。为了促进知识传递,我们采用三元损失来最小化教师和学生原型之间的类内方差,最大化类间方差。因此,I2CKD能够使学生更好地模拟教师每个类的特征表示,从而提高紧凑网络的分割性能。使用各种教师-学生网络对Cityscapes、Pascal VOC和CamVid三个分割数据集进行广泛实验,证明了所提方法的有效性。
Mar, 2024
提出一种新的知识蒸馏方法,通过将标签噪声并结合到输入中来提高轻量级教师模型的性能,同时保持与标准蒸馏一致性训练学生模型,以提高知识蒸馏的效果并增加教师和学生模型的灵活性。
Jul, 2024