CDFKD-MFS: 基于多级特征分享的协同无数据知识蒸馏

May, 2022

CDFKD-MFS: 基于多级特征分享的协同无数据知识蒸馏

CDFKD-MFS: Collaborative Data-free Knowledge Distillation via Multi-level Feature Sharing

Zhiwei Hao, Yong Luo, Zhi Wang, Han Hu, Jianping An

TL;DR提出了一种用于资源受限的边缘设备上的深度神经网络压缩的框架，其中包括多输入头的学生模块、不对称对抗数据无关知识蒸馏模块和基于注意力聚合模块，通过多层特征共享的方式实现合作式无数据知识蒸馏，并在三个数据集上的实验结果比现有的最佳方法更好。

Abstract

Recently, the compression and deployment of powerful deep neural networks (DNNs) on resource-limited edge devices to provide intelligent services have become attractive tasks. Although →

knowledge distillation deep neural networks multi-level feature-sharing edge devices asymmetric adversarial training

发现论文，激发创造

利用特征映射进行知识蒸馏的图像分类

本文提出了一种名为 KDFM（含有特征映射的知识蒸馏）的方法，通过学习教师网络的功能映射来提高知识蒸馏的有效性，并在实验中得出使用 4 层 CNN 模仿 DenseNet-40 和使用 MobileNet 模仿 DenseNet-100，对于 CIFAR-100 数据集，学生网络与教师模型相比准确率损失小于 1％，并且学生网络的推理速度是教师模型的 2-6 倍，而 MobileNet 的模型大小小于 DenseNet-100 的一半。

Dec, 2018

深度神经网络的无数据知识蒸馏

提出了一种无需训练集的知识蒸馏方法，仅利用预训练模型释放的一些额外元数据，就能将大规模数据集上训练的深度神经网络压缩到其大小的一小部分，并探索了可用于该方法的不同类型的元数据以及使用它们所涉及的权衡。

Oct, 2017

软目标定向传输集成的无数据知识蒸馏

本研究提出了一个基于多元正态分布的数据自由知识蒸馏方法，该方法从过度参数化神经网络中模拟中间特征空间并利用软目标标签生成伪样本以作为转换集。使用这些合成的转移集训练多个学生网络，表现出与使用原始训练集和其他无数据知识蒸馏方法训练的网络相当的竞争性能。

Apr, 2021

在线集成模型压缩技术 —— 基于知识蒸馏

本文提出了一种新颖的基于知识蒸馏的模型压缩框架，在学生集成中启用了同时学习的知识蒸馏，并在压缩的学生模型上蒸馏同时学到的集成知识，该方法在不需要预训练权重的情况下同时训练了压缩学生和集成教师。该方法可以交付多个压缩的学生，并且使用我们的框架，可以以高效和灵活的方式适应不同场景。实验结果表明，使用我们的框架，一个压缩率达 97% 的 ResNet110 学生模型在 CIFAR100 数据集上相对精度提高了 10.64％，类似地，一个压缩率达 95％的 DenseNet-BC （k = 12）模型相对精度提高了 8.17％。

Nov, 2020

基于特征方差的鲁棒知识蒸馏：抵抗带后门的教师模型

RobustKD 是基于特征差异的鲁棒知识蒸馏方法，通过压缩模型并减少学生模型和教师模型之间的特征差异，实现了学生模型的性能和后门缓解的双重目标。

Jun, 2024

通过合成数据防止知识蒸馏中的灾难性遗忘和分布不匹配

本论文提出了一种基于知识蒸馏的数据无需模型压缩框架，通过维护一个动态的生成样本集合并添加实际数据分布的限制，解决了现有数据无需压缩方法中可能存在的灾难性遗忘问题和人工数据分布不匹配问题。在 SVHN、Fashion MNIST 和 CIFAR100 数据集上与最先进的方法相比，表明可以提高通过知识蒸馏获得的学生模型的精度。

Aug, 2021

无数据对抗蒸馏

该研究提出一种新的对抗蒸馏机制，用于在没有真实数据的情况下制作紧凑的学生模型，这种数据免费的方法在分类和语义分割中表现出与基于数据驱动的方法相当的性能甚至更好。

Dec, 2019

多任务多尺度对比知识蒸馏在高效医学图像分割中的应用

本研究旨在探究神经网络在医学图像分割任务中的知识迁移可行性，特别关注从大规模多任务的 “教师” 网络向更小的 “学生” 网络的迁移。我们通过多尺度特征蒸馏和监督对比学习的结构，通过整合从教师模型获取的知识表示来提高学生模型的性能，并通过大量实验和消融研究评估了多尺度特征蒸馏的影响，以及不同损失对知识迁移的整体性能的影响。

Jun, 2024

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020

文本分类的对抗自监督无数据蒸馏

提出一种名为 AS-DFD 的新的两阶段无数据蒸馏方法，用于压缩大型基于 Transformer 的模型（例如 BERT），并且是第一个面向 NLP 任务设计的无数据蒸馏框架，在 Text Classification 数据集上验证了其有效性。

Oct, 2020