知識蒸餾中的遺失

Nov, 2023

What is Lost in Knowledge Distillation?

Manas Mohanty, Tanya Roosta, Peyman Passban

TL;DR深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Abstract

deep neural networks (DNNs) have improved NLP tasks significantly, but training and maintaining such networks could be costly. model compression techniques, such as, →

发现论文，激发创造

理解和改善知识蒸馏

本研究探讨了知识蒸馏的三个不同层次——宇宙，领域以及实例，发现这三个因素在知识蒸馏中起着重要作用，并在大量实证研究基础上，诊断了某些知识蒸馏应用失败的情况。

Feb, 2020

残差知识蒸馏

本研究提出了一种名为Residual Knowledge Distillation (RKD)的知识蒸馏方法，通过引入辅助器来进一步提炼知识，从而解决现有方法由于学习容量间的巨大差距而导致的性能下降问题，并在CIFAR-100和ImageNet等流行分类数据集上取得优异的成果，超过了现有方法的最新水平。

Feb, 2020

知识蒸馏在小模型回归问题训练中的高效方法

本文提出了一种用于回归问题的新的知识蒸馏形式，其中包括教师异常值拒绝损失函数和多任务网络等内容，并通过对多个数据集的评估表明，该方法可以提高准确性。

Feb, 2020

知识蒸馏：综述

该论文从知识分类、训练方案、教师-学生架构、蒸馏算法、性能比较和应用等方面全面调查了知识蒸馏。并简要回顾了知识蒸馏中的挑战，并探讨了未来的研究方向。

Jun, 2020

通过合成数据防止知识蒸馏中的灾难性遗忘和分布不匹配

本论文提出了一种基于知识蒸馏的数据无需模型压缩框架，通过维护一个动态的生成样本集合并添加实际数据分布的限制，解决了现有数据无需压缩方法中可能存在的灾难性遗忘问题和人工数据分布不匹配问题。在SVHN、Fashion MNIST和CIFAR100数据集上与最先进的方法相比，表明可以提高通过知识蒸馏获得的学生模型的精度。

Aug, 2021

Pro-KD：跟随老师的足迹进行渐进式蒸馏

本文介绍了一种名为Progressive Knowledge Distillation的技术，通过模仿教师模型的训练轨迹，改善了知识蒸馏中的“容量差距问题”（capacity-gap problem）和“检查点搜索问题”（checkpoint-search problem），在不同的任务（如图像分类、自然语言理解等）中，与最先进的技术相比，实验结果始终保持更好的表现。

Oct, 2021

响应性网络压缩中蒸馏质量的控制

本文探讨了如何提高知识压缩的效果，发现教师神经网络的反应质量和相似性信息密切相关，而采用适当的批量和历元数训练教师可以提高知识压缩的效果。

Dec, 2021

利用神经网络中的反向传播知识改进知识蒸馏

该论文提出了一种新的知识蒸馏方法，通过在教师模型与学生模型差异较大的地方提取知识，在生成新的辅助样本的过程中改善学生模型的性能，从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。

Jan, 2023

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

通过标签修订和数据选择改进知识蒸馏

该论文提出了一种解决知识蒸馏中错误监督的问题的方法，即通过标签修正纠正教师模型的错误预测，并引入数据选择技术以减少错误监督的影响，实验证明该方法的有效性，并表明该方法可以与其他蒸馏方法相结合，提高其性能。

Apr, 2024