CDFKD-MFS: 基于多级特征分享的协同无数据知识蒸馏
本文提出了一种名为 KDFM(含有特征映射的知识蒸馏)的方法,通过学习教师网络的功能映射来提高知识蒸馏的有效性,并在实验中得出使用 4 层 CNN 模仿 DenseNet-40 和使用 MobileNet 模仿 DenseNet-100,对于 CIFAR-100 数据集,学生网络与教师模型相比准确率损失小于 1%,并且学生网络的推理速度是教师模型的 2-6 倍,而 MobileNet 的模型大小小于 DenseNet-100 的一半。
Dec, 2018
提出了一种无需训练集的知识蒸馏方法,仅利用预训练模型释放的一些额外元数据,就能将大规模数据集上训练的深度神经网络压缩到其大小的一小部分,并探索了可用于该方法的不同类型的元数据以及使用它们所涉及的权衡。
Oct, 2017
本研究提出了一个基于多元正态分布的数据自由知识蒸馏方法,该方法从过度参数化神经网络中模拟中间特征空间并利用软目标标签生成伪样本以作为转换集。使用这些合成的转移集训练多个学生网络,表现出与使用原始训练集和其他无数据知识蒸馏方法训练的网络相当的竞争性能。
Apr, 2021
本文提出了一种新颖的基于知识蒸馏的模型压缩框架,在学生集成中启用了同时学习的知识蒸馏,并在压缩的学生模型上蒸馏同时学到的集成知识,该方法在不需要预训练权重的情况下同时训练了压缩学生和集成教师。该方法可以交付多个压缩的学生,并且使用我们的框架,可以以高效和灵活的方式适应不同场景。实验结果表明,使用我们的框架,一个压缩率达 97% 的 ResNet110 学生模型在 CIFAR100 数据集上相对精度提高了 10.64%,类似地,一个压缩率达 95%的 DenseNet-BC (k = 12)模型相对精度提高了 8.17%。
Nov, 2020
RobustKD 是基于特征差异的鲁棒知识蒸馏方法,通过压缩模型并减少学生模型和教师模型之间的特征差异,实现了学生模型的性能和后门缓解的双重目标。
Jun, 2024
本论文提出了一种基于知识蒸馏的数据无需模型压缩框架,通过维护一个动态的生成样本集合并添加实际数据分布的限制,解决了现有数据无需压缩方法中可能存在的灾难性遗忘问题和人工数据分布不匹配问题。在 SVHN、Fashion MNIST 和 CIFAR100 数据集上与最先进的方法相比,表明可以提高通过知识蒸馏获得的学生模型的精度。
Aug, 2021
本研究旨在探究神经网络在医学图像分割任务中的知识迁移可行性,特别关注从大规模多任务的 “教师” 网络向更小的 “学生” 网络的迁移。我们通过多尺度特征蒸馏和监督对比学习的结构,通过整合从教师模型获取的知识表示来提高学生模型的性能,并通过大量实验和消融研究评估了多尺度特征蒸馏的影响,以及不同损失对知识迁移的整体性能的影响。
Jun, 2024
提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD,大幅度降低了一些实践性问题的影响,提升了大规模语言模型的泛化能力,实现了比标准 KD 培训更好的性能表现,能用于低资源平台上的应用。
Nov, 2020
提出一种名为 AS-DFD 的新的两阶段无数据蒸馏方法,用于压缩大型基于 Transformer 的模型(例如 BERT),并且是第一个面向 NLP 任务设计的无数据蒸馏框架,在 Text Classification 数据集上验证了其有效性。
Oct, 2020