基于标记级关系图的知识蒸馏

Jun, 2023

Knowledge Distillation via Token-level Relationship Graph

Shuoxi Zhang, Hanpeng Liu, Kun He

TL;DR论文提出了一种新的知识蒸馏方法，称为基于 Token 级关系图的知识蒸馏（TRG），它利用了 Token 水平的关联知识，从而实现了在视觉分类任务中比现有技术表现更好的知识迁移效果。

Abstract

knowledge distillation is a powerful technique for transferring knowledge from a pre-trained teacher model to a student model. However, th

knowledge distillation token-level relationship graph contextual loss teacher model student model

发现论文，激发创造

关系知识蒸馏

该论文提出了关系知识蒸馏方法（RKD），用于将数据示例之间的相互关系转移给学生模型，进而提高其在度量学习等任务中的性能，尤其是在标准基准数据集上取得了超越其老师的表现。

Apr, 2019

句级别还是词级别？关于知识蒸馏的综合研究

通过改进的混合方法，将知识蒸馏技术应用于神经机器翻译，以在不同的情境中提高模型性能和压缩模型。

Apr, 2024

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023

知识蒸馏对迁移学习的影响

在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为 TL + KD，并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Oct, 2022

AD-KD: 基于属性的知识蒸馏用于语言模型压缩

本文提出了一种基于 Integrated Gradients 的新颖的归因驱动知识蒸馏方法，它探索了教师模型背后的 token-level 解释，并将知识转移给学生模型，进一步探索了多视角归因蒸馏。实验证明我们的方法在 GLUE 基准测试中具有比其他现有方法更好的性能。

May, 2023

高效生物医学实例分割的图关系蒸馏

我们提出了一种用于高效生物医学实例分割的图关系蒸馏方法，考虑了实例级特征、实例关系和像素边界这三种关键知识类型。我们引入了两种图蒸馏方案：实例图蒸馏（IGD）和亲和图蒸馏（AGD），通过保持实例图和像素亲和力的一致性来传递实例特征、实例关系和边界相关的知识。实验证明了我们方法的有效性，使得学生模型的参数少于 1% 且推理时间少于 10%，同时相较于教师模型具有有希望的性能。

Jan, 2024

用图神经网络提炼整体知识

本文提出一种基于属性图的全局知识蒸馏方法，通过自适应地聚合相关样本的单独知识，将它们与关系型邻域样本的关联知识整合成统一的图嵌入，并以对比的方式训练学生网络来蒸馏全局知识。

Aug, 2021

神经机器翻译知识蒸馏理解与改进探究

本文研究神经机器翻译中知识蒸馏的技术，发现知识来源于教师的 top-1 预测，进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏，包含了层次排序损失和迭代蒸馏等措施，实验证明 TIE-KD 优于基准模型，具有更高的潜力和泛化性能。

May, 2023

基于伪目标训练的语言生成知识蒸馏系统研究

研究自然语言生成（NLG）中的知识蒸馏技术优化模型并生成具体的文本任务，提出伪目标（PT）数据增强方法并应用于双方产生的多个 PT 的词级 KD，从而有效地压缩模型。

May, 2023

硬门知识蒸馏 —— 利用校准实现强韧可靠的语言模型

在知识蒸馏中，我们探索了一个很少被关注的问题：什么时候蒸馏知识？我们提出了模型校准的概念，将教师模型视为不仅提供知识的源头，而且作为检测学生模型失调的一个标尺。这种新颖的观点导致了一个硬门控知识蒸馏方案，可以在教师模型和训练数据之间进行学习，并在自然语言生成的上下文中进行了检验。实证比较表明，硬门控知识蒸馏不仅提高了模型的泛化性能，而且显著降低了模型的校准误差。

Oct, 2022