本文介绍了一种名为 Progressive Knowledge Distillation 的技术,通过模仿教师模型的训练轨迹,改善了知识蒸馏中的 “容量差距问题”(capacity-gap problem)和 “检查点搜索问题”(checkpoint-search problem),在不同的任务(如图像分类、自然语言理解等)中,与最先进的技术相比,实验结果始终保持更好的表现。
Oct, 2021
本文研究了一种改进模型压缩方法,通过强化学习动态调整知识蒸馏中教师模型的权重,从而提高了学生模型性能,适用于自然语言处理任务。
Dec, 2020
该论文提出了关系知识蒸馏方法(RKD),用于将数据示例之间的相互关系转移给学生模型,进而提高其在度量学习等任务中的性能,尤其是在标准基准数据集上取得了超越其老师的表现。
Apr, 2019
本文提出了一种名为 ProKT 的知识蒸馏方法,通过将教师模型的监督信号投影到学生参数空间中,从而在优化过程中实现了更好的局部最优解,实验结果表明,与其他现有的知识蒸馏方法相比,ProKT 在图像和文本数据集上都展现出了卓越的性能。
Jul, 2021
本文将动态增量学习引入到知识蒸馏中,提出了一种教育蒸馏的蒸馏策略,通过将学生模型从完整的学生模型分割为低级模型,结合设计的教学参考层,逐渐提升学生模型的年级,并从更多的教师模型中进行学习和蒸馏,使得学生模型的性能逐渐从低级到高级逐阶段提高。教育蒸馏策略结合蒸馏算法在公共数据集 CIFAR100、Caltech256 和 Food-101 数据集上比单一蒸馏算法取得了更优的结果。
Nov, 2023
本研究提出了一种基于课程学习的优化框架 CL-DRD,通过控制先前重排(教师)模型产生的训练数据难度级别来优化稠密检索(学生)模型,在三个公共语段检索数据集上的实验证明了该框架的有效性。
Apr, 2022
知识蒸馏是一种将深度神经网络的知识转移到更小更快的神经网络中的方法,近期变体包括教学助理蒸馏、课程蒸馏、遮罩蒸馏和解耦蒸馏等,致力于通过引入额外的组件或改变学习过程来提高知识蒸馏的性能。
Apr, 2023
本研究提出了一种名为 HetComp 的知识蒸馏框架,用于将异构模型的整体知识转移给一个轻量级模型,以减少资源成本和推理延迟,该框架使用动态知识构建和自适应知识传输提供逐步更难的排序信息,并通过全面实验表明该框架能够显著提高精度和泛化性能。
Mar, 2023
深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。
Oct, 2023
通过蒸馏技术,提出了一种名为 DGR 的可行框架,利用排名模型作为教师角色,通过专门设计的蒸馏 RankNet loss 来优化生成式检索模型,从而提升了当前生成式检索系统的性能。
Feb, 2024