Sep, 2022

动量对抗蒸馏:数据无关蒸馏中处理大分布偏移

TL;DR本文提出一种名为 Momentum Adversarial Distillation (MAD) 的方法,使用演员生成器和 EMA(Exponential Moving Average)生成器的合成样本对学生进行培训,通过保持 EMA 生成器的过去版本来防止快速改变的学生,以解决 DFKD 中的分布偏移问题。实验证明,MAD 在许多基准数据集上胜过竞争方法,甚至在某些情况下实现了最新的成果。