跨架构蒸馏用于人脸识别

Jun, 2023

Cross Architecture Distillation for Face Recognition

Weisong Zhao, Xiangyu Zhu, Zhixiang He, Xiao-Yu Zhang, Zhen Lei

TL;DR该研究提出了两种解决方案，即 URFM 和 APT，帮助在人脸识别的跨体系结构知识蒸馏中解决教师和学生之间的差异性空间信息以及教师网络在处理蒸馏特定知识方面的能力不足的问题。

Abstract

transformers have emerged as the superior choice for face recognition tasks, but their insufficient platform acceleration hinders their application on mobile devices. In contrast, convolutional neural networks (C

transformers convolutional neural networks cross-architecture knowledge distillation unified receptive fields mapping adaptable prompting teacher

发现论文，激发创造

跨架构知识蒸馏促进卷积神经网络在高效单目深度估计中的应用

提出了一种名为 DisDepth 的跨体系结构知识蒸馏方法，用于增强具有卷积结构的高效卷积神经网络模型的性能，并且通过教师模型传递有价值的信息以改进单目深度估计的准确性。

Apr, 2024

目标感知 Transformer 的知识蒸馏

本篇论文提出了一种新型的知识蒸馏方法，采用一对所有的空间匹配，提高小型神经网络的性能，不同于以往的一对一的空间匹配，从而导致所有的空间位置通常都具有不同的语义信息。该方法在各种计算机视觉基准测试中都超过了最先进的方法。

May, 2022

CMKD: 基于 CNN/Transformer 交替模型知识蒸馏的音频分类

本文研究了卷积神经网络和自注意力机制模型之间的交互作用，通过知识蒸馏将它们作为师生模型相互训练，在 FSD50K、AudioSet 和 ESC-50 等数据集上取得了新的最好成绩。

Mar, 2022

累积空间知识蒸馏用于视觉 Transformers

该研究提出了 Cumulative Spatial Knowledge Distillation (CSKD) 方法，它能够在不引入中间特征的情况下，从相应的 CNN 空间响应中将空间上的知识传递到 ViT 的所有补丁令牌，并在训练过程中利用 Cumulative Knowledge Fusion 模块，以更好的利用 CNN 的局部归纳偏差，在 ImageNet-1k 和下游数据集上取得了优异的表现。

Jul, 2023

从 CNN 提炼高效的视觉 Transformer 用于语义分割

我们提出了一种 CNN 到 ViT 知识蒸馏框架，包括视觉语言特征蒸馏模块 (VLFD) 和像素级解耦蒸馏模块 (PDD)，实验证明我们的方法在三个语义分割基准数据集上的 mIoU 增量是最先进知识蒸馏方法的 200% 以上。

Oct, 2023

优秀的学生具备合作和可靠性：CNN-Transformer 语义分割的协同学习

本文介绍了一种在线知识蒸馏框架，通过选择和交换可靠知识来协同学习基于卷积神经网络（CNN）和视觉变压器（ViT）的模型，以进行语义分割。经过大量实验验证，我们提出的框架在大幅领先于现有的在线蒸馏方法的同时，展示了 ViT 和 CNN 模型之间协同学习的有效性。

Jul, 2023

在紧凑空间中对齐：异构架构之间的对比知识蒸馏

基于低频部分的对比知识蒸馏框架能够更好地在异构架构下提取特征表示的共性。通过使用多尺度低通滤波器提取教师和学生模型中间特征的低频部分，并通过对比学习任务优化学生模型的特征区分度，该框架在 ImageNet-1K 和 CIFAR-100 数据集上展现出卓越的性能。

May, 2024

一对多：在知识蒸馏中弥合异构架构的差距

通过使用居中核对齐方法比较异构教师和学生模型之间的特征学习情况，我们观察到显著的特征差异，进而揭示了以往基于暗示的方法在跨体系结构蒸馏中的无效性。为了解决在异构模型蒸馏中的挑战，我们提出了一种简单而有效的一对多蒸馏框架（OFA-KD），通过将中间特征投影到对齐的潜空间（如 logits 空间）中，丢弃体系结构特定信息，并引入自适应目标增强方案来防止学生受到无关信息的干扰。通过多种体系结构的广泛实验，包括 CNN、Transformer 和 MLP，证明了我们 OFA-KD 框架在实现异构体系结构蒸馏方面的优势。具体而言，在使用我们的 OFA-KD 框架后，学生模型在 CIFAR-100 数据集上最多提高了 8.0%，在 ImageNet-1K 数据集上提高了 0.7%。

Oct, 2023

共同指导：跨归纳偏差蒸馏

该研究提出了一种新颖的基于蒸馏的方法，用于训练视觉 transformers，并取得了比先前同等架构的 transformers 更好的性能，该方法的关键是使用具有不同归纳偏差的轻量级 teachers 来共同指导 student transformer，从而实现不同的知识交汇和提升。

Jun, 2021

联合渐进式知识蒸馏和无监督领域自适应

本研究提出了一种新方法，通过域自适应和无监督知识蒸馏，联合优化卷积神经网络，实现压缩模型并适应于特定目标领域，结果表明该方法在实现较高准确度的同时，比现有的压缩和域自适应技术具有相当或更低的时间复杂度，在实际应用中有较好的应用前景。

May, 2020