Jun, 2024
实例温度知识蒸馏
Instance Temperature Knowledge Distillation
TL;DR知识蒸馏(KD)通过允许学生网络逐步学习从教师网络传输的知识来提高其性能。我们提出了一种基于强化学习的方法RLKD,将温度调整视为顺序决策任务,并设计了一种新颖的状态表示来使代理能够做出更明智的动作(即实例温度调整)。我们的方法解决了由于KD设置导致的延迟奖励问题,并采用了高效的探索策略。我们的框架可以轻松插入到各种KD方法中,并在图像分类和目标检测任务上验证了其有效性。