NORM: 基于 N 对一表示匹配的知识蒸馏

ICLRMay, 2023

NORM: 基于 N 对一表示匹配的知识蒸馏

NORM: Knowledge Distillation via N-to-One Representation Matching

Xiaolong Liu, Lujun Li, Chao Li, Anbang Yao

TL;DR本研究提出了 N-to-One Representation Matching (NORM) 知识蒸馏方法，其主要利用由两个线性层组成的 Feature Transform (FT) 模块，可以在训练中保留教师网络学习到的信息，并且通过新颖的多对一表示匹配机制，推动学生网络逼近教师网络的表示。在不引入额外参数或结构修改的情况下，在多个视觉识别基准测试中展示了该方法的领先性能。

Abstract

Existing feature distillation methods commonly adopt the One-to-one representation matching between any pre-selected teacher-student layer pair. In this paper, we present N-to-One Representation (NORM), a new two-stage

knowledge distillation representation matching feature transform convolutional layer visual recognition

发现论文，激发创造

通过规范化特征范数和方向提高知识蒸馏

提出了一种基于大范数特征和类均值对齐的知识蒸馏方法 NDKD，该方法在 ImageNet 和 CIFAR100 数据集上取得了最好的分类精度。

May, 2023

目标感知 Transformer 的知识蒸馏

本篇论文提出了一种新型的知识蒸馏方法，采用一对所有的空间匹配，提高小型神经网络的性能，不同于以往的一对一的空间匹配，从而导致所有的空间位置通常都具有不同的语义信息。该方法在各种计算机视觉基准测试中都超过了最先进的方法。

May, 2022

让学生决策的知识蒸馏层

通过引入可学习的 KD 层和模板学习方法，我们提出一种新的知识蒸馏技术，实现了对学生模型在中间层中进行特征变换的显式控制，并在多个分类基准测试中验证了其有效性。

Sep, 2023

特征蒸馏的全面改进

本文研究了特征蒸馏方法在网络压缩中的设计问题，并提出了一种新的特征蒸馏方法，其中蒸馏损失的设计使各个方面之间产生协同效应：老师变换，学生变换，蒸馏特征位置和距离函数。该方法在图像分类、目标检测和语义分割等多个任务中实现了显著的性能提升。

Apr, 2019

通过自适应实例标准化进行知识蒸馏

本文提出了一种新的知识蒸馏方法，基于转移来自教师到学生的通道均值和方差等特征统计信息，以及新的适应性实例归一化损失，以提高模型压缩效果。

Mar, 2020

知识蒸馏训练动态深入研究

本文通过实验证明了正则化 (即 normalisation)、软最大值函数以及投影层是知识蒸馏的关键因素，并提出了一种简单的软最大函数来解决容量差异问题。实验结果表明，使用这些洞见可以实现与最先进的知识蒸馏技术相当或更好的性能，而且计算效率更高。

Mar, 2023

$V_kD:$ 使用正交投影来改进知识蒸馏

通过特征蒸馏方法，我们的研究提出了一种新的约束特征蒸馏方法，该方法可以应用于训练小型高效的深度学习模型，并在 ImageNet 数据集上获得了显著的性能提升。

Mar, 2024

知识蒸馏在小模型回归问题训练中的高效方法

本文提出了一种用于回归问题的新的知识蒸馏形式，其中包括教师异常值拒绝损失函数和多任务网络等内容，并通过对多个数据集的评估表明，该方法可以提高准确性。

Feb, 2020

任务自适应正则化下的物体检测蒸馏

该论文提出了一种基于知识蒸馏的对象检测模型微调方法，采用区域提议共享机制和自适应知识转移方法，根据模型的不同表现区分性能好坏，同时使用知识衰减策略帮助提高模型的泛化性能。实验结果表明，该方法在 COOC 数据集上取得了比基线模型更好的检测结果。

Jun, 2020

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020