知识蒸馏训练动态深入研究
通过特征蒸馏方法,我们的研究提出了一种新的约束特征蒸馏方法,该方法可以应用于训练小型高效的深度学习模型,并在 ImageNet 数据集上获得了显著的性能提升。
Mar, 2024
IJCKD 提供了一个理论框架,通过一个基于领域自适应理论的数学分析来更好地理解现有的知识蒸馏方法,明确了教师网络与学生网络之间的知识转移机制,并且可以有效地将知识传递给各种应用领域。
Apr, 2023
在知识蒸馏过程中,我们发现即使学生和老师具有相同的特征维度,添加投影器仍然有助于提高蒸馏性能,并且投影器在体系结构中的添加甚至可以改善逻辑蒸馏。受到这些令人惊讶的发现和现有文献对知识蒸馏过程中投影器角色的不了解的启发,本文研究了被忽视的投影器的隐含作用。通过经验研究,我们发现具有投影器的学生与没有投影器的学生相比,可以在训练精度和测试精度之间获得更好的平衡,从 Centered Kernel Alignment (CKA) 的视角来看,其相似性与老师相比更好地保持,并且避免了测试阶段老师的过度自信。受到投影器积极影响的启发,我们提出了一种基于投影器集合的特征蒸馏方法以进一步提高蒸馏性能。尽管所提出的策略简单,但在基准数据集上进行的分类任务的实证结果显示了我们方法在广泛范围的师生对上具有优越的分类性能,并从 CKA 和模型校准的角度验证了学生特征的质量改进。
Oct, 2023
通过使用反向投影的简单修改,我们提出了一种针对跨任务设置的知识蒸馏方法,能够有效处理不同任务之间的教师和学生模型,在没有额外成本的情况下,在跨任务设置下相比传统投影获得了高达 1.9%的改进。此外,我们还使用反向投影进行了分析,提出了一种新的正则化损失函数,使得在 ImageNet 上的无教师蒸馏性能提升高达 8.57%,且无需额外的训练成本。
Mar, 2024
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为 TL + KD,并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022
本篇论文提出了一种新型的知识蒸馏方法,采用一对所有的空间匹配,提高小型神经网络的性能,不同于以往的一对一的空间匹配,从而导致所有的空间位置通常都具有不同的语义信息。该方法在各种计算机视觉基准测试中都超过了最先进的方法。
May, 2022
本论文提出了一种信息理论框架用于知识转移,将知识转移视为最大化教师和学生网络之间的互信息,将该方法应用于不同架构的网络间的知识转移,证明了其性能远超现有方法。
Apr, 2019
本文介绍了一种用于减小大规模计算机视觉模型尺寸、同时不影响性能的知识蒸馏方法,并且明确了影响该方法有效性的设计选择。通过全面的实验研究,我们在多种视觉数据集上获得了令人信服的结果,并实现了在 ImageNet 数据集上的 ResNet-50 模型的最新表现,其 top-1 准确率为 82.8%。
Jun, 2021
本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。
Feb, 2023