Feb, 2022

元知识蒸馏

TL;DR本文提出了一种元知识蒸馏(MKD)方法,利用可学习的元温度参数进行元学习,通过适应学习目标的梯度自适应地调整元参数以解决知识蒸馏(KD)的退化问题,从而在不同数据集规模、不同网络和不同数据扩增类型上实现了与当下最优秀方法相当的性能表现。