语义校准的跨层蒸馏
这篇论文提出了一种针对图像语义分割的新型知识蒸馏方法,称为 Intra- and Inter-Class Knowledge Distillation(I2CKD)。该方法的重点是捕捉和转移教师(笨重模型)和学生(紧凑模型)的中间层之间的知识。为了进行知识提取,我们利用特征图生成了类原型。为了促进知识传递,我们采用三元损失来最小化教师和学生原型之间的类内方差,最大化类间方差。因此,I2CKD 能够使学生更好地模拟教师每个类的特征表示,从而提高紧凑网络的分割性能。使用各种教师 - 学生网络对 Cityscapes、Pascal VOC 和 CamVid 三个分割数据集进行广泛实验,证明了所提方法的有效性。
Mar, 2024
知识蒸馏和半监督学习方法相结合的半监督学习知识蒸馏(SSLKD)方法在道路分割应用中表现出显著的学生模型性能提升,超过传统半监督学习方法的效果。
Feb, 2024
通过引入可学习的 KD 层和模板学习方法,我们提出一种新的知识蒸馏技术,实现了对学生模型在中间层中进行特征变换的显式控制,并在多个分类基准测试中验证了其有效性。
Sep, 2023
研究知识蒸馏在神经网络中的应用。提出了一种基于注意力机制的组合技术,通过将教师网络和学生网络的信息进行融合,并且考虑每层的重要性,在中间层进行蒸馏。实验表明,该技术能够优于其他现有的技术。
Dec, 2020
在这篇论文中,我们提出了一种改进的双向知识迁移方法 Dense Cross-layer Mutual-distillation (DCM),它采用了协作训练师生网络的方法,引入了辅助分类器和密集的双向知识蒸馏操作,在各种知识迁移任务中都表现出比相关方法更卓越的性能。
Aug, 2020
本文提出了一种跨图像关系知识蒸馏方法,通过结构化像素之间和区域之间的关系来提高学生模型的分割性能。在 Cityscapes,CamVid 和 Pascal VOC 数据集上的实验结果表明,该方法比现有的蒸馏方法效果更好。
Apr, 2022
我们提出了一种多阶段协同知识蒸馏方法,用于稀缺标记数据的半监督序列预测任务,通过从提示的大型语言模型中蒸馏出的学生模型,在特定任务上能够更好地泛化,且在两个句法分析任务上表现出了优势。
Nov, 2023
该研究提出了一种自适应分配逐样本可靠度的方法,以每个教师的预测可信度来稳定知识转移过程,并结合中间层来提高学生成绩,在不同的教师 - 学生架构下,优于所有其他现有方法。
Dec, 2021
知识蒸馏可解决语义分割中的大型模型和慢速推理问题。研究中鉴定了 14 篇发表于近 4 年的 25 种蒸馏损失项。通过对 2022 年两篇论文的比较,揭示了超参数选择不当导致学生模型性能极端差异的问题。为了提高该领域的未来研究可比性,建立了三个数据集和两种学生模型的坚实基线,并提供了大量有关超参数调整的信息。在 ADE20K 数据集上,发现只有两种技术能与我们简单的基线相竞争。
Sep, 2023