学会在获取知识的同时保持知识：对抗非对抗数据知识蒸馏中的分布偏移

CVPRFeb, 2023

学会在获取知识的同时保持知识：对抗非对抗数据知识蒸馏中的分布偏移

Learning to Retain while Acquiring: Combating Distribution-Shift in Adversarial Data-Free Knowledge Distillation

Gaurav Patel, Konda Reddy Mopuri, Qiang Qiu

TL;DR提出一种数据无关知识蒸馏的框架，称为学会保留和获得，通过元学习的方式将知识获取和保留视为元培训和元测试，并确定知识保留和获得任务之间的隐含对齐因素，从而为这两个任务强制实施共同的梯度方向。

Abstract

data-free knowledge distillation (DFKD) has gained popularity recently, with the fundamental idea of carrying out knowledge transfer from a Teacher neural network to a Student neural network in the absence of training data. However, in the →

data-free knowledge distillation adversarial dfkd meta-learning knowledge retention gradient direction

发现论文，激发创造

宽容专家的教师：与教师无关的无数据知识蒸馏

无数据知识蒸馏方法 (TA-DFKD）通过为生成器分配宽松的专家角色，而非严格的监督者角色，以更健壮和稳定的性能，实现了在各种教师模型下的蒸馏，并超越了现有的无数据知识蒸馏方法。

Feb, 2024

软目标定向传输集成的无数据知识蒸馏

本研究提出了一个基于多元正态分布的数据自由知识蒸馏方法，该方法从过度参数化神经网络中模拟中间特征空间并利用软目标标签生成伪样本以作为转换集。使用这些合成的转移集训练多个学生网络，表现出与使用原始训练集和其他无数据知识蒸馏方法训练的网络相当的竞争性能。

Apr, 2021

数据无关的去卷积知识蒸馏处理分布转移

数据无关知识蒸馏是训练高性能小模型以增强实际部署的有希望的任务，本文提出了一种新颖的因果推断视角来解决在 DFKD 任务中的严重分布偏移问题，并设计了一种基于反向调整的知识蒸馏因果干预框架（KDCI），实验证明了其有效性。

Mar, 2024

分布偏移对于使用网络收集的图片进行知识蒸馏很重要

知识蒸馏是从预训练教师网络中学习轻量级学生网络的方法，但现有方法在原始训练数据不可用时往往不可行。为解决这个问题，该文提出了一种名为 “不同分布知识蒸馏” 的新方法（KD$^{3}$），其包括三个组件：从互联网收集训练实例，通过教师网络和学生网络的综合预测动态选择有用的训练实例；对齐两个网络的特征和分类器参数进行知识记忆；新建一个对比学习块以生成具有新分布的扰动数据用于实例对齐。该方法在不同基准数据集上的实验表明，KD$^{3}$ 能够超越现有的无数据知识蒸馏方法。

Jul, 2023

通过生成伪回放实现稳健且资源高效的无数据知识蒸馏

本文提出了一种基于 Variational Autoencoder 的合成数据生成方法，以替代存储和重复合成数据的方式，从而提高基于 Data-Free Knowledge Distillation 方法的神经网络压缩效果，实现机器学习模型精简。

Jan, 2022

采样与蒸馏：开放世界数据的知识迁移

提出了一种名为数据无关知识蒸馏（DFKD）的新任务，旨在使用仅带有原始训练数据的教师网络训练高性能学生模型。通过自适应采样模块对接近原始数据分布的开放世界数据进行采样，引入低噪声表示以减轻领域漂移并建立多个数据示例的结构化关系来开发数据知识。在 CIFAR-10、CIFAR-100、NYUv2 和 ImageNet 等广泛实验中，我们的 ODSD 方法实现了最先进的性能，在 ImageNet 数据集上与现有结果相比，准确率提高了 1.50％-9.59％。

Jul, 2023

通过合成数据防止知识蒸馏中的灾难性遗忘和分布不匹配

本论文提出了一种基于知识蒸馏的数据无需模型压缩框架，通过维护一个动态的生成样本集合并添加实际数据分布的限制，解决了现有数据无需压缩方法中可能存在的灾难性遗忘问题和人工数据分布不匹配问题。在 SVHN、Fashion MNIST 和 CIFAR100 数据集上与最先进的方法相比，表明可以提高通过知识蒸馏获得的学生模型的精度。

Aug, 2021

动量对抗蒸馏：数据无关蒸馏中处理大分布偏移

本文提出一种名为 Momentum Adversarial Distillation (MAD) 的方法，使用演员生成器和 EMA（Exponential Moving Average）生成器的合成样本对学生进行培训，通过保持 EMA 生成器的过去版本来防止快速改变的学生，以解决 DFKD 中的分布偏移问题。实验证明，MAD 在许多基准数据集上胜过竞争方法，甚至在某些情况下实现了最新的成果。

Sep, 2022

图神经网络的零数据对抗知识蒸馏

本篇论文提出了一种基于生成对抗网络的无需真实数据的对抗知识蒸馏框架，用于图结构数据的知识蒸馏，可以有效压缩图模型并在图分类任务中取得更好的性能。

May, 2022

无数据对抗蒸馏

该研究提出一种新的对抗蒸馏机制，用于在没有真实数据的情况下制作紧凑的学生模型，这种数据免费的方法在分类和语义分割中表现出与基于数据驱动的方法相当的性能甚至更好。

Dec, 2019