标签辅助下的强化教师:一种用于语义分割的新型知识蒸馏方法
该论文研究了如何将大型神经网络中的结构信息转移到紧凑型神经网络中,以用于计算机视觉中的密集预测任务,提出了从大型神经网络到紧凑型神经网络的结构蒸馏算法,并通过三个密集预测任务的实验展示了方法的有效性。
Mar, 2019
本文挑战了使用强大的teacher model教授弱student model的共识,详细阐述了KD和label smoothing regularization之间的关系,提出了Teacher-free Knowledge Distillation(Tf-KD)框架,通过自学和手动设计正则化分布,实现了与正常KD相媲美的性能。
Sep, 2019
本文提出了一种名为FRSKD的自我知识蒸馏方法,利用辅助自主教师网络传输分类器网络的精细化知识。该方法可应用于分类和语义分割等多样化任务,并证明其在各种任务和基准数据集中的性能提升
Mar, 2021
本文提出一种基于知识蒸馏的语义分割方法,通过引入Inter-class Distance Distillation (IDD)模块来转移特征空间中的跨类距离,同时利用位置信息蒸馏模块来提高学生网络的位置编码能力,实验结果表明,该方法可以大幅度提高语义分割模型的准确性,达到state-of-the-art的性能水平。
May, 2022
本文介绍了一种名为 DIST 的方法,它可以更好地从一个更强的教师模型中进行知识蒸馏,通过保留教师和学生之间的预测关系,提出了基于相关损失的方法,从而实现了最先进的性能。
May, 2022
通过引入新颖的“引导燃烧”阶段的教师-学生蒸馏模型以及评估不同的实例分割架构、骨干网络和预训练策略,我们改进了蒸馏方法,并利用未标记数据在引导燃烧阶段中进行了指导,从而显著提高了先前最先进的结果。
Aug, 2023
知识蒸馏可解决语义分割中的大型模型和慢速推理问题。研究中鉴定了14篇发表于近4年的25种蒸馏损失项。通过对2022年两篇论文的比较,揭示了超参数选择不当导致学生模型性能极端差异的问题。为了提高该领域的未来研究可比性,建立了三个数据集和两种学生模型的坚实基线,并提供了大量有关超参数调整的信息。在ADE20K数据集上,发现只有两种技术能与我们简单的基线相竞争。
Sep, 2023
我们提出了一种CNN到ViT知识蒸馏框架,包括视觉语言特征蒸馏模块(VLFD)和像素级解耦蒸馏模块(PDD),实验证明我们的方法在三个语义分割基准数据集上的mIoU增量是最先进知识蒸馏方法的200%以上。
Oct, 2023
这篇论文提出了一种针对图像语义分割的新型知识蒸馏方法,称为Intra- and Inter-Class Knowledge Distillation(I2CKD)。该方法的重点是捕捉和转移教师(笨重模型)和学生(紧凑模型)的中间层之间的知识。为了进行知识提取,我们利用特征图生成了类原型。为了促进知识传递,我们采用三元损失来最小化教师和学生原型之间的类内方差,最大化类间方差。因此,I2CKD能够使学生更好地模拟教师每个类的特征表示,从而提高紧凑网络的分割性能。使用各种教师-学生网络对Cityscapes、Pascal VOC和CamVid三个分割数据集进行广泛实验,证明了所提方法的有效性。
Mar, 2024
在本文中,我们通过引入相对学习难度的指导原则,提出了一种适用于语义分割的像素级知识蒸馏范式,名为相对难度蒸馏(RDD)。我们的研究结果表明,RDD能够以更有效的方式指导学习焦点,并可与现有的知识蒸馏方法相结合,提高其性能上限。
Jul, 2024