May, 2024

AdaKD:使用自适应损失加权的 ASR 模型动态知识蒸馏

TL;DR本文提出了一种自适应知识蒸馏技术,通过课程学习的启发,以实例级别自适应地加权损失,并实验证明该方法优于传统的知识蒸馏方法和现有的实例级别损失函数。