对比表示蒸馏
本论文提出了一种信息理论框架用于知识转移,将知识转移视为最大化教师和学生网络之间的互信息,将该方法应用于不同架构的网络间的知识转移,证明了其性能远超现有方法。
Apr, 2019
本文提出了新型的知识蒸馏损失函数,其通过保留教师神经网络中相似输入的激活模式特征,指导学生神经网络的训练,使其在保留各自的表征空间中,能够准确地保持输入的相似度。实验结果表明了该方法的潜力。
Jul, 2019
本文提出了通过知识蒸馏从内部表示来压缩BERT这样的大型模型,并阐述了两种从内部表示中提取知识的方法和不同算法的实验。结论是,与仅使用软标签蒸馏相比,从内部表示来蒸馏是更强大的方法。
Oct, 2019
本文提出了一种以先验知识为主要建模对象的知识表示框架,并设计了一种稀疏重编码惩罚,以约束学生网络的学习,从而在知识蒸馏过程中避免过度正则化和更快地收敛。实验表明,该框架即使目标网络的表示能力不如期望,仍然实现了最先进的性能表现,并且灵活易于与基于后验知识的其他知识蒸馏方法结合使用。
Nov, 2019
本研究提出一种基于对比关系的知识蒸馏方法CRCD,通过建立标定点并计算学生和教师关系的差异,有效地将结构性知识从教师模型转移到学生模型中,从而同时蒸馏出样本表示和样本之间的关系。实验证明了该方法的有效性。
Mar, 2021
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为TL + KD,并对它与传统TL的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022
我们提出了一种针对小模型的训练方法,不需要吸收预训练的成本,却能获得相同的性能,并且通过知识蒸馏与对比学习的连接,能够有效地降低计算成本,提高训练速度,同时通过数据增强进一步改善性能。
Apr, 2024
知识蒸馏是从大型训练模型向更小、更高效的学生模型转移知识的有效方法,我们引入了关系表示蒸馏(RRD),该方法利用配对相似性来探索和强化教师模型和学生模型之间的关系,通过放宽的对比损失方法,改善了学生模型的鲁棒性和性能,且在 CIFAR-100 数据集上表现优于传统的知识蒸馏技术和其他 13 种先进方法,在其他数据集上也成功地进行了知识转移。
Jul, 2024