渐进式网络嫁接用于少样本知识蒸馏
本论文中,我们提出了一种新的知识蒸馏方案,通过从无标签的少样本数据中提取知识,以实现数据效率和训练 / 处理效率。这种方法可以在不到几分钟的时间内,恢复学生网络的准确性,使用仅全量数据的 1%而不需要传统的微调方法。
Dec, 2018
本文提出了一种名为交叉蒸馏的新颖蒸馏方法,旨在有效减少少样本情况下神经网络推断的高估误差,这一方法可与常见的网络压缩技术如剪枝相兼容,并在基准数据集上得到了显著的改进。
Nov, 2019
本文提出了一种黑盒少样本知识蒸馏方法,使用 MixUp 和条件变分自编码器生成多样的合成图像进行训练,显著优于最新 SOTA 的少 / 零样本 KD 方法用于图像分类任务。
Jul, 2022
本文提出一种基于多个 teacher assistant 的密集引导知识蒸馏方法,通过逐渐减小模型大小有效地弥合 teacher 和 student 之间的巨大差距,实现了对 student 的更高效学习,并在 CIFAR-10、CIFAR-100 和 ImageNet 上的多个 backbone 架构中取得了显著的性能提升。
Sep, 2020
本研究提出了病人知识蒸馏方法,将原始大模型(老师)压缩成同样有效的轻型浅层网络(学生),以缓解大规模模型训练中的计算资源需求,并在多个 NLP 任务中获得改进的结果和培养效率的显著提高。
Aug, 2019
本文介绍了一种新的知识蒸馏方法,使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识,并将其成功地传递到学生网络中,从而实现了在各种基准测试下的表现优异。
Jun, 2020
借助知识蒸馏技术,我们提出了一种新的两步法来压缩 Tiny 语音增强模型,其中包括先用知识蒸馏目标进行预训练,然后切换到完全监督训练模式,同时提出了一种新的细粒度相似性保持 KD 损失函数,该方法在高压缩和低信噪比条件下表现出突出的改进,相对于基线,在输入信噪比为 - 5dB 和 63 倍压缩的情况下,信噪失真比分别提高了 0.9dB 和 1.1dB。
Sep, 2023