无数据对抗蒸馏
提出了一种无需训练集的知识蒸馏方法,仅利用预训练模型释放的一些额外元数据,就能将大规模数据集上训练的深度神经网络压缩到其大小的一小部分,并探索了可用于该方法的不同类型的元数据以及使用它们所涉及的权衡。
Oct, 2017
本文研究知识蒸馏过程中,如何将教师神经网络的鲁棒性传递给学生神经网络,并提出一种称为 Adversarially Robust Distillation (ARD) 的方法。实验证明,采用 ARD 的学生模型在鲁棒性上的表现明显优于采用相同结构的敌对训练网络,并在标准鲁棒性基准测试中超越了当前最先进的方法。
May, 2019
本文提出了一种无需数据的对抗知识蒸馏,通过合成数据来实现数据自由的网络量化,包括多个生成器和多个学生的多样化对抗样本,实现了(wide) residual networks和MobileNet在SVHN、CIFAR-10、CIFAR-100和Tiny-ImageNet数据集上最先进的数据自由模型压缩和量化效果。
May, 2020
提出一种名为 AS-DFD 的新的两阶段无数据蒸馏方法,用于压缩大型基于 Transformer 的模型(例如 BERT),并且是第一个面向 NLP 任务设计的无数据蒸馏框架,在 Text Classification 数据集上验证了其有效性。
Oct, 2020
提出了一种名为Dual Discriminator Adversarial Distillation (DDAD)的新型无数据的知识蒸馏方法,通过生成样本,训练紧凑的学生网络,使其接近其教师网络,从而在计算机视觉任务中实现了高效的神经网络。
Apr, 2021
本文提出一种名为Momentum Adversarial Distillation (MAD)的方法,使用演员生成器和EMA(Exponential Moving Average)生成器的合成样本对学生进行培训,通过保持EMA生成器的过去版本来防止快速改变的学生,以解决DFKD中的分布偏移问题。实验证明,MAD在许多基准数据集上胜过竞争方法,甚至在某些情况下实现了最新的成果。
Sep, 2022
无数据的知识蒸馏(KD)通过使用OpenGL图像和数据增强等方法来训练学生网络,达到了多个数据集/网络的最新结果,并且比现有的生成器基于无数据KD方法更为稳定。
Oct, 2023
通过知识蒸馏和数据增强的结合,提出了一个概念简单且轻量级的框架来提高视觉模型的鲁棒性。通过从预训练的基础模型进行蒸馏,我们得出了大型模型并不一定会成为更好的教师的推测并在分布外鲁棒性上取得了显著的改进。基于这一发现,我们提出了离散对抗蒸馏(DAD)的方法,利用鲁棒的教师生成对抗样本并使用VQGAN对其离散化,相比于标准的数据增强技术,生成的样本更具信息量。我们提供了一个理论框架来解释在具有数据增强的知识蒸馏中使用鲁棒的教师,并在不同的学生架构中展示了分布外鲁棒性和净精确度的显著改进。值得注意的是,我们的方法与类似技术相比只增加了较小的计算开销,并且可以轻松与其他数据增强技术结合以进一步提高性能。
Nov, 2023
用单层优化的对抗性框架,从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果,可以在最小的GPU内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。
Dec, 2023