QKD：量化知识蒸馏

Nov, 2019

QKD: Quantization-aware Knowledge Distillation

Jangho Kim, Yash Bhalgat, Jinwon Lee, Chirag Patel, Nojun Kwak

TL;DR本文提出了一种量化感知知识蒸馏的方法，并通过三个阶段的教学来协调量化和 KD，从而在 ImageNet 和 CIFAR-10 / 100 数据集上提高了模型的性能。

Abstract

quantization and knowledge distillation (KD) methods are widely used to reduce memory and power consumption of deep neural networks (DNNs)

quantization knowledge distillation deep neural networks resource-constrained edge devices image recognition

发现论文，激发创造

自监督量化感知知识蒸馏

该论文提出了一种新颖的自监督量化感知知识蒸馏 (SQAKD) 框架，通过将量化感知训练与知识蒸馏相结合，同时最小化全精度模型与低比特模型之间的 KL-Loss 和量化的离散化误差，从而有效克服了现有方法需要繁琐的超参数调节、标签数据需求和复杂的训练过程的限制，并在各种模型结构上明显优于现有的量化感知训练和知识蒸馏方法。

Mar, 2024

海报：自监督量化感知知识蒸馏

本研究提出了一种自监督量化感知知识蒸馏框架 (SQAKD)，可同时最小化 KL-Loss 和离散化误差，显著提升各种最先进的量化感知训练方法的性能。

Sep, 2023

理解和改善知识蒸馏，针对大型 Transformer 编码器的量化感知训练

本文提出了两种知识蒸馏方法，即注意力映射和注意力输出损失，并探索了两者的统一，以解决注意力重构的不足。实验结果表明，这两种知识蒸馏方法可以在使用小于 2 位的量化权重时，获得具有先进性的精度。

Nov, 2022

QUEST: 量化嵌入空间用于知识转移

本文提出一种通过量化空间来传输知识、学习教师网络中的主视觉概念的知识蒸馏方法，通过对多种网络结构和常用基准数据集的广泛评估，证明了该方法优于现有的知识蒸馏方法。

Dec, 2019

退火知识蒸馏

本文介绍了一种名为 Annealing-KD 的改进型知识蒸馏方法，通过渐进式地提供教师模型提供的丰富信息来训练更小的学生模型，从而使得知识蒸馏方法在训练力度较大的学生模型时更有效。作者在不同的任务上进行了实验验证，包括图像分类和自然语言推理等。

Apr, 2021

基于蒸馏和量化的模型压缩

本文提出了两种新的模型压缩方法：量化蒸馏和可微量化。两种方法在卷积和循环体系结构上的实验结果表明，在资源受限的环境中，量化浅层神经网络可以达到与全精度模型相似的准确性水平，同时提供数量级压缩和推断加速。

Feb, 2018

MTKD：图像超分辨率的多教师知识蒸馏

我们提出了一种新颖的多教师知识蒸馏（MTKD）框架，专门用于图像超分辨率，通过结合和增强多个教师模型的输出来指导紧凑的学生网络的学习过程，并通过在空间和频率域中观察差异来优化训练过程，从而在超分辨率性能上实现了明显的改善。

Apr, 2024

QEKD: 基于黑盒模型的无数据查询知识蒸馏

提出了一种新的查询高效知识蒸馏方法（QEKD），可以从黑盒模型 API 中进行查询有效学习，不需要实际数据，并在不同实际数据集上展现出良好性能。

May, 2022

基于对抗知识蒸馏的无数据量化网络

本文提出了一种无需数据的对抗知识蒸馏，通过合成数据来实现数据自由的网络量化，包括多个生成器和多个学生的多样化对抗样本，实现了 (wide) residual networks 和 MobileNet 在 SVHN、CIFAR-10、CIFAR-100 和 Tiny-ImageNet 数据集上最先进的数据自由模型压缩和量化效果。

May, 2020

准备教材：利用更好的监督改进知识蒸馏

本研究提出了两种新颖的方法，知识调整（KA）和动态温度蒸馏（DTD），用于惩罚错误监督并改善学生模型，实验表明该方法在各种评测数据集上，以及与其他基于知识蒸馏的方法相结合时，都能获得鼓舞人心的表现。

Nov, 2019