提出了一种新的方法,通过利用训练教师网络内在归一化层的统计信息来训练生成图像模型,从而在没有训练数据的情况下实现知识迁移、模型压缩和半监督学习,该方法在 CIFAR-10 和 CIFAR-100 数据集上表现出色,并能够将其扩展到 ImageNet 数据集。
Dec, 2020
本研究提出了一个基于多元正态分布的数据自由知识蒸馏方法,该方法从过度参数化神经网络中模拟中间特征空间并利用软目标标签生成伪样本以作为转换集。使用这些合成的转移集训练多个学生网络,表现出与使用原始训练集和其他无数据知识蒸馏方法训练的网络相当的竞争性能。
Apr, 2021
本论文提出了一种基于知识蒸馏的数据无需模型压缩框架,通过维护一个动态的生成样本集合并添加实际数据分布的限制,解决了现有数据无需压缩方法中可能存在的灾难性遗忘问题和人工数据分布不匹配问题。在 SVHN、Fashion MNIST 和 CIFAR100 数据集上与最先进的方法相比,表明可以提高通过知识蒸馏获得的学生模型的精度。
Aug, 2021
该研究提出一种新的对抗蒸馏机制,用于在没有真实数据的情况下制作紧凑的学生模型,这种数据免费的方法在分类和语义分割中表现出与基于数据驱动的方法相当的性能甚至更好。
Dec, 2019
本文提出了一种黑盒少样本知识蒸馏方法,使用 MixUp 和条件变分自编码器生成多样的合成图像进行训练,显著优于最新 SOTA 的少 / 零样本 KD 方法用于图像分类任务。
Jul, 2022
本文提出了零数据知识迁移的方法,通过自动生成 Data Impressions 从而实现了基于 Teacher 模型的知识迁移,不需要获取原始数据,具有实用性和良好的泛化能力。
May, 2019
本文提出了一种基于 Variational Autoencoder 的合成数据生成方法,以替代存储和重复合成数据的方式,从而提高基于 Data-Free Knowledge Distillation 方法的神经网络压缩效果,实现机器学习模型精简。
Jan, 2022
知识蒸馏是从预训练教师网络中学习轻量级学生网络的方法,但现有方法在原始训练数据不可用时往往不可行。为解决这个问题,该文提出了一种名为 “不同分布知识蒸馏” 的新方法(KD$^{3}$),其包括三个组件:从互联网收集训练实例,通过教师网络和学生网络的综合预测动态选择有用的训练实例;对齐两个网络的特征和分类器参数进行知识记忆;新建一个对比学习块以生成具有新分布的扰动数据用于实例对齐。该方法在不同基准数据集上的实验表明,KD$^{3}$ 能够超越现有的无数据知识蒸馏方法。
Jul, 2023
提出了一种名为数据无关知识蒸馏(DFKD)的新任务,旨在使用仅带有原始训练数据的教师网络训练高性能学生模型。通过自适应采样模块对接近原始数据分布的开放世界数据进行采样,引入低噪声表示以减轻领域漂移并建立多个数据示例的结构化关系来开发数据知识。在 CIFAR-10、CIFAR-100、NYUv2 和 ImageNet 等广泛实验中,我们的 ODSD 方法实现了最先进的性能,在 ImageNet 数据集上与现有结果相比,准确率提高了 1.50%-9.59%。
提出一种名为 AS-DFD 的新的两阶段无数据蒸馏方法,用于压缩大型基于 Transformer 的模型(例如 BERT),并且是第一个面向 NLP 任务设计的无数据蒸馏框架,在 Text Classification 数据集上验证了其有效性。
Oct, 2020