知識蒸餾中的遺失
本研究提出了一种名为Residual Knowledge Distillation (RKD)的知识蒸馏方法,通过引入辅助器来进一步提炼知识,从而解决现有方法由于学习容量间的巨大差距而导致的性能下降问题,并在CIFAR-100和ImageNet等流行分类数据集上取得优异的成果,超过了现有方法的最新水平。
Feb, 2020
本文提出了一种用于回归问题的新的知识蒸馏形式,其中包括教师异常值拒绝损失函数和多任务网络等内容,并通过对多个数据集的评估表明,该方法可以提高准确性。
Feb, 2020
本论文提出了一种基于知识蒸馏的数据无需模型压缩框架,通过维护一个动态的生成样本集合并添加实际数据分布的限制,解决了现有数据无需压缩方法中可能存在的灾难性遗忘问题和人工数据分布不匹配问题。在SVHN、Fashion MNIST和CIFAR100数据集上与最先进的方法相比,表明可以提高通过知识蒸馏获得的学生模型的精度。
Aug, 2021
本文介绍了一种名为Progressive Knowledge Distillation的技术,通过模仿教师模型的训练轨迹,改善了知识蒸馏中的“容量差距问题”(capacity-gap problem)和“检查点搜索问题”(checkpoint-search problem),在不同的任务(如图像分类、自然语言理解等)中,与最先进的技术相比,实验结果始终保持更好的表现。
Oct, 2021
该论文提出了一种新的知识蒸馏方法,通过在教师模型与学生模型差异较大的地方提取知识,在生成新的辅助样本的过程中改善学生模型的性能,从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。
Jan, 2023
该论文提出了一种解决知识蒸馏中错误监督的问题的方法,即通过标签修正纠正教师模型的错误预测,并引入数据选择技术以减少错误监督的影响,实验证明该方法的有效性,并表明该方法可以与其他蒸馏方法相结合,提高其性能。
Apr, 2024