在学习排名问题时,我们提出了一种基于知识蒸馏的技术,称为 RD,通过使用更小的模型在保持模型性能的同时提高在线推理的效率,该技术在公共数据集和推荐模型上实现了旨在设计的目的。
Sep, 2018
本研究提出了一种名为 HetComp 的知识蒸馏框架,用于将异构模型的整体知识转移给一个轻量级模型,以减少资源成本和推理延迟,该框架使用动态知识构建和自适应知识传输提供逐步更难的排序信息,并通过全面实验表明该框架能够显著提高精度和泛化性能。
Mar, 2023
本研究探讨了知识蒸馏的三个不同层次 —— 宇宙,领域以及实例,发现这三个因素在知识蒸馏中起着重要作用,并在大量实证研究基础上,诊断了某些知识蒸馏应用失败的情况。
Feb, 2020
本文提出了一种新的知识蒸馏模型 —— 协作蒸馏模型 (CD),该模型采用概率排序感知采样、转换误差函数以处理反馈不足以及提供两个训练方法 (即教师指导和学生指导),在推荐领域中取得了 2.7-33.2% 和 2.7-29.1% 的命中率 (HR) 和标准化折现累计增益 (NDCG) 方面的优异表现。
Nov, 2019
本研究提出了一种新的拓扑蒸馏方法 -- 层次化拓扑蒸馏(HTD)。通过在师傅空间中建立的关系构建的拓扑结构指导学生,以更好地复制推荐系统的主要信息。实验证明,与现有竞争对手相比,该方法在真实数据集上显著提高了推荐的质量。
Jun, 2021
本研究提出了一种名为 Residual Knowledge Distillation (RKD) 的知识蒸馏方法,通过引入辅助器来进一步提炼知识,从而解决现有方法由于学习容量间的巨大差距而导致的性能下降问题,并在 CIFAR-100 和 ImageNet 等流行分类数据集上取得优异的成果,超过了现有方法的最新水平。
使用半参数推断方法将知识蒸馏转换为目标学生模型、未知贝叶斯类概率和教师概率的 plug-in 估计值,引入交叉适应和损失校正两种方式来改善教师过度拟合和欠拟合对学生性能的影响,为标准蒸馏的预测误差提供了新的保证,并在表格式和图像数据上进行实证验证,观察到与知识蒸馏增强相关的一致改进。
Apr, 2021
本文揭示了知识蒸馏方法的内在机制,对应于一种新型的随机方差缩减机制。通过在线性模型和深度线性模型的背景下实现这一方法,表明知识蒸馏可以降低随机梯度噪声,从而减少模型复杂度,但是需要进行参数化的调整。
May, 2023
深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移,本研究通过实验探究了蒸馏过程对于信息损失的影响,并提出了一种优化配置方法。
Nov, 2023
本文研究了一种改进模型压缩方法,通过强化学习动态调整知识蒸馏中教师模型的权重,从而提高了学生模型性能,适用于自然语言处理任务。
Dec, 2020