Sep, 2022

动量对抗蒸馏: 数据无关蒸馏中处理大分布偏移

TL;DR本文提出一种名为Momentum Adversarial Distillation (MAD)的方法,使用演员生成器和EMA(Exponential Moving Average)生成器的合成样本对学生进行培训,通过保持EMA生成器的过去版本来防止快速改变的学生,以解决DFKD中的分布偏移问题。实验证明,MAD在许多基准数据集上胜过竞争方法,甚至在某些情况下实现了最新的成果。