Jun, 2024

实例温度知识蒸馏

TL;DR知识蒸馏 (KD) 通过允许学生网络逐步学习从教师网络传输的知识来提高其性能。我们提出了一种基于强化学习的方法 RLKD,将温度调整视为顺序决策任务,并设计了一种新颖的状态表示来使代理能够做出更明智的动作 (即实例温度调整)。我们的方法解决了由于 KD 设置导致的延迟奖励问题,并采用了高效的探索策略。我们的框架可以轻松插入到各种 KD 方法中,并在图像分类和目标检测任务上验证了其有效性。