退火知识蒸馏

Apr, 2021

Annealing Knowledge Distillation

Aref Jafari, Mehdi Rezagholizadeh, Pranav Sharma, Ali Ghodsi

TL;DR本文介绍了一种名为 Annealing-KD 的改进型知识蒸馏方法，通过渐进式地提供教师模型提供的丰富信息来训练更小的学生模型，从而使得知识蒸馏方法在训练力度较大的学生模型时更有效。作者在不同的任务上进行了实验验证，包括图像分类和自然语言推理等。

Abstract

Significant memory and computational requirements of large deep neural networks restrict their application on edge devices. knowledge distillation (KD) is a prominent model compression technique for →

knowledge distillation model compression deep neural networks annealing-kd soft-targets

发现论文，激发创造

利用神经网络中的反向传播知识改进知识蒸馏

该论文提出了一种新的知识蒸馏方法，通过在教师模型与学生模型差异较大的地方提取知识，在生成新的辅助样本的过程中改善学生模型的性能，从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。

Jan, 2023

知識蒸餾中的遺失

深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Nov, 2023

再生神经网络

本文研究知识迁移领域的另一种方法：Born-Again Networks (BANs)，将学生的参数与老师的相同，来达到比老师更好的性能表现。在计算机视觉和语言建模任务中， BANs 表现出甚至比老师高出许多的性能得分，并且在各种规模的学生中，将知识从 DenseNets 到 ResNets 和反向传输，都显示出明显的优势

May, 2018

基于响应、特征和关系的知识蒸馏分类

这篇论文提供了一份全面的知识蒸馏调查，包括知识类别、蒸馏方案和算法，以及一些性能比较的实证研究。

Jun, 2023

知识蒸馏：综述

该论文从知识分类、训练方案、教师 - 学生架构、蒸馏算法、性能比较和应用等方面全面调查了知识蒸馏。并简要回顾了知识蒸馏中的挑战，并探讨了未来的研究方向。

Jun, 2020

准备教材：利用更好的监督改进知识蒸馏

本研究提出了两种新颖的方法，知识调整（KA）和动态温度蒸馏（DTD），用于惩罚错误监督并改善学生模型，实验表明该方法在各种评测数据集上，以及与其他基于知识蒸馏的方法相结合时，都能获得鼓舞人心的表现。

Nov, 2019

知识蒸馏对迁移学习的影响

在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为 TL + KD，并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Oct, 2022

理解和改善知识蒸馏

本研究探讨了知识蒸馏的三个不同层次 —— 宇宙，领域以及实例，发现这三个因素在知识蒸馏中起着重要作用，并在大量实证研究基础上，诊断了某些知识蒸馏应用失败的情况。

Feb, 2020

元知识蒸馏

本文提出了一种元知识蒸馏（MKD）方法，利用可学习的元温度参数进行元学习，通过适应学习目标的梯度自适应地调整元参数以解决知识蒸馏（KD）的退化问题，从而在不同数据集规模、不同网络和不同数据扩增类型上实现了与当下最优秀方法相当的性能表现。

Feb, 2022

神经机器翻译知识蒸馏理解与改进探究

本文研究神经机器翻译中知识蒸馏的技术，发现知识来源于教师的 top-1 预测，进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏，包含了层次排序损失和迭代蒸馏等措施，实验证明 TIE-KD 优于基准模型，具有更高的潜力和泛化性能。

May, 2023