通过合成数据防止知识蒸馏中的灾难性遗忘和分布不匹配

Aug, 2021

通过合成数据防止知识蒸馏中的灾难性遗忘和分布不匹配

Preventing Catastrophic Forgetting and Distribution Mismatch in Knowledge Distillation via Synthetic Data

Kuluhan Binici, Nam Trung Pham, Tulika Mitra, Karianto Leman

TL;DR本论文提出了一种基于知识蒸馏的数据无需模型压缩框架，通过维护一个动态的生成样本集合并添加实际数据分布的限制，解决了现有数据无需压缩方法中可能存在的灾难性遗忘问题和人工数据分布不匹配问题。在 SVHN、Fashion MNIST 和 CIFAR100 数据集上与最先进的方法相比，表明可以提高通过知识蒸馏获得的学生模型的精度。

Abstract

With the increasing popularity of deep learning on edge devices, compressing large neural networks to meet the hardware requirements of resource-constrained devices became a significant research direction. Numerous compression methodologies are currently being used to reduce the memory

knowledge distillation data-free model compression catastrophic forgetting sample generation strategies deep learning

发现论文，激发创造

软目标定向传输集成的无数据知识蒸馏

本研究提出了一个基于多元正态分布的数据自由知识蒸馏方法，该方法从过度参数化神经网络中模拟中间特征空间并利用软目标标签生成伪样本以作为转换集。使用这些合成的转移集训练多个学生网络，表现出与使用原始训练集和其他无数据知识蒸馏方法训练的网络相当的竞争性能。

Apr, 2021

深度神经网络的无数据知识蒸馏

提出了一种无需训练集的知识蒸馏方法，仅利用预训练模型释放的一些额外元数据，就能将大规模数据集上训练的深度神经网络压缩到其大小的一小部分，并探索了可用于该方法的不同类型的元数据以及使用它们所涉及的权衡。

Oct, 2017

通过生成伪回放实现稳健且资源高效的无数据知识蒸馏

本文提出了一种基于 Variational Autoencoder 的合成数据生成方法，以替代存储和重复合成数据的方式，从而提高基于 Data-Free Knowledge Distillation 方法的神经网络压缩效果，实现机器学习模型精简。

Jan, 2022

小规模无数据知识蒸馏

通过使用小规模逆置数据进行知识蒸馏，提高训练效率的数据无关知识蒸馏 (SSD-KD) 方法在图像分类和语义分割基准测试中展示了超强的性能和高效的训练。

Jun, 2024

无数据对抗蒸馏

该研究提出一种新的对抗蒸馏机制，用于在没有真实数据的情况下制作紧凑的学生模型，这种数据免费的方法在分类和语义分割中表现出与基于数据驱动的方法相当的性能甚至更好。

Dec, 2019

利用神经网络中的反向传播知识改进知识蒸馏

该论文提出了一种新的知识蒸馏方法，通过在教师模型与学生模型差异较大的地方提取知识，在生成新的辅助样本的过程中改善学生模型的性能，从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。

Jan, 2023

大规模生成无数据蒸馏

提出了一种新的方法，通过利用训练教师网络内在归一化层的统计信息来训练生成图像模型，从而在没有训练数据的情况下实现知识迁移、模型压缩和半监督学习，该方法在 CIFAR-10 和 CIFAR-100 数据集上表现出色，并能够将其扩展到 ImageNet 数据集。

Dec, 2020

知識蒸餾中的遺失

深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Nov, 2023

分布偏移对于使用网络收集的图片进行知识蒸馏很重要

知识蒸馏是从预训练教师网络中学习轻量级学生网络的方法，但现有方法在原始训练数据不可用时往往不可行。为解决这个问题，该文提出了一种名为 “不同分布知识蒸馏” 的新方法（KD$^{3}$），其包括三个组件：从互联网收集训练实例，通过教师网络和学生网络的综合预测动态选择有用的训练实例；对齐两个网络的特征和分类器参数进行知识记忆；新建一个对比学习块以生成具有新分布的扰动数据用于实例对齐。该方法在不同基准数据集上的实验表明，KD$^{3}$ 能够超越现有的无数据知识蒸馏方法。

Jul, 2023

基于对抗知识蒸馏的无数据量化网络

本文提出了一种无需数据的对抗知识蒸馏，通过合成数据来实现数据自由的网络量化，包括多个生成器和多个学生的多样化对抗样本，实现了 (wide) residual networks 和 MobileNet 在 SVHN、CIFAR-10、CIFAR-100 和 Tiny-ImageNet 数据集上最先进的数据自由模型压缩和量化效果。

May, 2020