该论文提出了关系知识蒸馏方法(RKD),用于将数据示例之间的相互关系转移给学生模型,进而提高其在度量学习等任务中的性能,尤其是在标准基准数据集上取得了超越其老师的表现。
Apr, 2019
通过改进的混合方法,将知识蒸馏技术应用于神经机器翻译,以在不同的情境中提高模型性能和压缩模型。
Apr, 2024
本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。
Feb, 2023
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为 TL + KD,并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022
本文提出了一种基于 Integrated Gradients 的新颖的归因驱动知识蒸馏方法,它探索了教师模型背后的 token-level 解释,并将知识转移给学生模型,进一步探索了多视角归因蒸馏。实验证明我们的方法在 GLUE 基准测试中具有比其他现有方法更好的性能。
May, 2023
我们提出了一种用于高效生物医学实例分割的图关系蒸馏方法,考虑了实例级特征、实例关系和像素边界这三种关键知识类型。我们引入了两种图蒸馏方案:实例图蒸馏(IGD)和亲和图蒸馏(AGD),通过保持实例图和像素亲和力的一致性来传递实例特征、实例关系和边界相关的知识。实验证明了我们方法的有效性,使得学生模型的参数少于 1% 且推理时间少于 10%,同时相较于教师模型具有有希望的性能。
Jan, 2024
本文提出一种基于属性图的全局知识蒸馏方法,通过自适应地聚合相关样本的单独知识,将它们与关系型邻域样本的关联知识整合成统一的图嵌入,并以对比的方式训练学生网络来蒸馏全局知识。
Aug, 2021
本文研究神经机器翻译中知识蒸馏的技术,发现知识来源于教师的 top-1 预测,进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏,包含了层次排序损失和迭代蒸馏等措施,实验证明 TIE-KD 优于基准模型,具有更高的潜力和泛化性能。
研究自然语言生成(NLG)中的知识蒸馏技术优化模型并生成具体的文本任务,提出伪目标(PT)数据增强方法并应用于双方产生的多个 PT 的词级 KD,从而有效地压缩模型。
在知识蒸馏中,我们探索了一个很少被关注的问题:什么时候蒸馏知识?我们提出了模型校准的概念,将教师模型视为不仅提供知识的源头,而且作为检测学生模型失调的一个标尺。这种新颖的观点导致了一个硬门控知识蒸馏方案,可以在教师模型和训练数据之间进行学习,并在自然语言生成的上下文中进行了检验。实证比较表明,硬门控知识蒸馏不仅提高了模型的泛化性能,而且显著降低了模型的校准误差。