深度人脸识别的分组知识蒸馏
本文提供一种新视角,通过近似经典 KL 散度标准的不同知识源激励一组知识蒸馏策略,从而使模型压缩和渐进学习在知识源方面进行系统比较。分析结果表明,logits 通常是更有效的知识来源,并建议在模型设计方面具备足够的特征维度,从而为基于知识蒸馏的转移学习提供实用指南。
Mar, 2022
通过将传统的知识蒸馏 (KD) 损失重构为 TCKD 和 NCKD 两部分,本文证明了 logit distillation 方法的潜在价值,并提出了解耦知识蒸馏 (DKD) 方法以更高效地发挥 TCKD 和 NCKD 的作用,从而在图像分类和目标检测任务的 CIFAR-100、ImageNet 和 MS-COCO 数据集上取得了可比甚至更好的结果和更好的训练效率。
Mar, 2022
本文提出了一种基于教师模型稍加简化后的知识表示的学生友好型知识蒸馏方法(SKD),其包含软化处理和学习简化器,通过联合训练确保知识简化过程与学生模型的训练目标相关,提高了训练效率和准确性。实验结果表明,该方法在 CIFAR-100 和 ImageNet 数据集上取得了最优性能。
May, 2023
本文提出了一种基于本地化知识蒸馏的方法,在目标检测中通过学习有价值的本地化区域知识和确定哪些区域应该用于蒸馏来提高 AP 得分。这种简单而有效的知识蒸馏技术可以优化深度学习模型的性能。
Feb, 2021
提出一种新颖的多标签知识蒸馏方法,通过将多标签学习问题分解为一组二元分类问题,并利用标签间嵌入的结构信息来增强学习特征表示的独特性,避免标签间的知识对抗,从而在多个基准数据集上实现了优越的性能。
Aug, 2023
使用自适应知识蒸馏方法 AdaDistill 在深度人脸识别中,通过利用高性能教师模型的知识来提高紧凑学生模型的性能。AdaDistill 将知识蒸馏概念嵌入到带有蒸馏类中心的边际惩罚 softmax 损失中,通过在训练迭代中控制学生的学习能力进展来相对调整蒸馏的知识,无需调整任何超参数。大量实验证明了 AdaDistill 可以增强学生的判别学习能力,并在多个具有挑战性的基准测试中展示了对各种最先进竞争者的优越性。
Jul, 2024
知识蒸馏可解决语义分割中的大型模型和慢速推理问题。研究中鉴定了 14 篇发表于近 4 年的 25 种蒸馏损失项。通过对 2022 年两篇论文的比较,揭示了超参数选择不当导致学生模型性能极端差异的问题。为了提高该领域的未来研究可比性,建立了三个数据集和两种学生模型的坚实基线,并提供了大量有关超参数调整的信息。在 ADE20K 数据集上,发现只有两种技术能与我们简单的基线相竞争。
Sep, 2023
本文提出了一种基于标准化的知识蒸馏方法(NormKD),通过自定义每个样本的温度来提高知识蒸馏的效果,并在图像分类的任务中表现出明显的优越性。此外,NormKD 可轻松应用于其他基于 logit 的方法,并达到接近或甚至超越基于特征的方法的性能。
Aug, 2023