DOT：一种面向蒸馏的训练器

ICCVJul, 2023

DOT: A Distillation-Oriented Trainer

Borui Zhao, Quan Cui, Renjie Song, Jiajun Liang

TL;DR本文提出 Distillation-Oriented Trainer (DOT)，以在知识蒸馏任务中优化任务丢失和蒸馏丢失之间的权衡，通过应用更大的动量来加速蒸馏损失的优化，以获得更好的任务损失和蒸馏损失的优化，并通过广泛实验证明了 DOT 的优越性。

Abstract

knowledge distillation transfers knowledge from a large model to a small one via task and distillation losses. In this paper, we observe a trade-off between task and distillation losses, i.e., introducing distillation l

knowledge distillation task loss distillation loss distillation-oriented trainer optimization

发现论文，激发创造

授课老师在蒸馏中的偏差：违抗是否值得？

通过一系列的实验，我们发现知识蒸馏 (distillation) 在教师网络存在低置信度的点的时候，会使得学生网络的置信度更低，而之后引入知识蒸馏 (loss) 会恢复部分性能，同时我们提供了两种理论视角来理解这种现象，作为特征空间的正则化项和梯度去噪器。

Jan, 2023

任务自适应正则化下的物体检测蒸馏

该论文提出了一种基于知识蒸馏的对象检测模型微调方法，采用区域提议共享机制和自适应知识转移方法，根据模型的不同表现区分性能好坏，同时使用知识衰减策略帮助提高模型的泛化性能。实验结果表明，该方法在 COOC 数据集上取得了比基线模型更好的检测结果。

Jun, 2020

SoTeacher: 面向学生的教师网络训练框架用于知识蒸馏

提出一种基于学生的教师网络训练框架 SoTeacher，通过引入 Lipschitz 正则化和一致性正则化改善知识蒸馏算法中教师网络的训练方法，实验证明该方法适用于几乎所有的教师 - 学生架构对，并且可以显著、一致地提高学生的性能。

Jun, 2022

多教师渐进蒸馏的轻量级目标检测学习

对于计算和内存资源有限的感知系统，我们提出了一种简单但非常有效的序列化方法来通过知识蒸馏来提高轻量级分类模型的性能，并成功将基于 Transformer 的教师检测器的知识转化到基于卷积的学生检测器上，从而显著提升了 MS COCO 基准测试上 RetinaNet 和 Mask R-CNN 的性能。

Aug, 2023

DisWOT: 无需训练的蒸馏学生架构搜索

本文提出了一种名为 DisWOT 的新方法，使用进化算法，在没有进行训练的情况下，以教师神经网络的相似度为依据来搜索出最优的学生神经网络结构，并且在知识蒸馏阶段大幅提高了模型性能。实验结果表明，该方法在不同的搜索空间中均取得了最先进的成果。

Mar, 2023

目标检测任务集成蒸馏

通过综合考虑分类和回归任务的重要性差异，在目标检测中提出了一种能够应对知识蒸馏中偏见预测问题的方法。

Apr, 2024

HomoDistil: 预训练 Transformer 的同拓扑无关任务蒸馏

本文提出了一种基于迭代剪枝的新型无需任务特定指导的蒸馏方法 ——Homotopic Distillation（HomoDistil），旨在实现在小的计算成本和存储占用下，通过迁移知识来产生一个紧凑的预训练模型，并通过大量实验表明，与现有基线方法相比，HomoDistil 具有明显的优势。

Feb, 2023

不要盲目模仿老师：使用扰动损失进行知识蒸馏

本文提出了一种新的知识蒸馏方法 PTLoss，通过扰动 KL-based distillation loss function，将原始 teacher 转换为更接近 ground truth 的 proxy teacher，从而显著提高了知识蒸馏的效果。

May, 2023

路线约束优化的知识蒸馏

本文基于课程学习的角度考虑知识蒸馏，使用路由的方式选取锚点进行监督，提出了一种路由约束优化算法 (RCO)，实验证明这种简单的操作极大地降低了知识蒸馏、提示和模仿学习的一致性损失下限，可在 CIFAR100 和 ImageNet 上将知识蒸馏的性能分别提高 2.14％和 1.5％，并在 MegaFace 的开放式人脸识别任务上进行了评估。

Apr, 2019

来自更强大教师的知识蒸馏

本文介绍了一种名为 DIST 的方法，它可以更好地从一个更强的教师模型中进行知识蒸馏，通过保留教师和学生之间的预测关系，提出了基于相关损失的方法，从而实现了最先进的性能。

May, 2022