HARD:用于鲁棒蒸馏的强化增强
本文挑战了使用强大的teacher model教授弱student model的共识,详细阐述了KD和label smoothing regularization之间的关系,提出了Teacher-free Knowledge Distillation(Tf-KD)框架,通过自学和手动设计正则化分布,实现了与正常KD相媲美的性能。
Sep, 2019
本文提出了一种名为AugPro的数据增强方法,通过在表示插值增强方法的基础上构建数据的多样性,并将增强数据转换为标记来避免转移决策边界,提高了蒸馏的性能并在计算效率上具有优势。
Oct, 2022
该研究论文提出了一种新的逆概率加权蒸馏 (IPWD) 方法,用于解决知识蒸馏时两个领域之间数据分布不同的问题,该方法通过对样本的倾向得分估计进行加权,以弥补非独立同分布的数据中低频样本的不足,有效提高了知识蒸馏的准确度。
Oct, 2022
本文介绍了一种基于知识蒸馏的方法和使用语言模型创建任务特定无标签数据增强来提高模型在NLI任务中的性能,在out-of-distribution方面的表现超过以前的方法。通过Distilled Minority Upsampling来鲁棒性提高了SNLI-hard的表现。
May, 2023
通过使用居中核对齐方法比较异构教师和学生模型之间的特征学习情况,我们观察到显著的特征差异,进而揭示了以往基于暗示的方法在跨体系结构蒸馏中的无效性。为了解决在异构模型蒸馏中的挑战,我们提出了一种简单而有效的一对多蒸馏框架(OFA-KD),通过将中间特征投影到对齐的潜空间(如logits空间)中,丢弃体系结构特定信息,并引入自适应目标增强方案来防止学生受到无关信息的干扰。通过多种体系结构的广泛实验,包括CNN、Transformer和MLP,证明了我们OFA-KD框架在实现异构体系结构蒸馏方面的优势。具体而言,在使用我们的OFA-KD框架后,学生模型在CIFAR-100数据集上最多提高了8.0%,在ImageNet-1K数据集上提高了0.7%。
Oct, 2023
在大规模预训练模型时代,知识蒸馏在保持性能的同时,将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而,传统的知识蒸馏假设经常对教师模型进行推理,这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题,本文提出了面向少教师推理知识蒸馏(FTI KD)的方法,旨在减少对教师模型推理的依赖。本文观察到,当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感,提出了比较式知识蒸馏(CKD),它鼓励学生模型理解教师模型对样本解释的微妙差异,并为学生提供额外的学习信号,而无需进行额外的教师调用。此外,我们将CKD原理扩展到样本组,从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明,CKD始终优于最先进的数据增强和知识蒸馏技术。
Nov, 2023
我们提出了一种利用关联距离和网络修剪的强化稳健知识蒸馏(R2KD)方法,能够有效结合数据增强以提高模型的性能。在各种数据集上进行了广泛的实验,包括CIFAR-100、FGVR、TinyImagenet和ImageNet,这些实验证明了我们的方法优于当前最先进的方法。
Nov, 2023
我们提出了一种针对小模型的训练方法,不需要吸收预训练的成本,却能获得相同的性能,并且通过知识蒸馏与对比学习的连接,能够有效地降低计算成本,提高训练速度,同时通过数据增强进一步改善性能。
Apr, 2024
提出了一种新方法来提高知识蒸馏效率,同时不需要资源密集的教师模型。通过使用紧凑的自动编码器提取特征并计算不同类别之间的相似度得分,然后对这些相似度得分应用softmax函数以获得软概率向量,这个向量在学生模型的训练中作为有价值的指导。在各种数据集上进行的广泛实验表明,与依赖大型教师模型的传统知识蒸馏方法相比,我们的方法在资源效率方面具有更高的优势,并在模型准确性方面实现了相似甚至更高的性能。
Apr, 2024