ViT 特征知识蒸馏的实用指南

Sep, 2022

ViTKD: Practical Guidelines for ViT feature knowledge distillation

Zhendong Yang, Zhe Li, Ailing Zeng, Zexian Li, Chun Yuan...

TL;DR本文研究 Vision Transformer 的特征蒸馏方法，并提出 ViTKD 可以使基于 ImageNet 数据集的学生模型的准确率分别提升 1.64％、1.4％和 1.7％。

Abstract

knowledge distillation (KD) for convolutional neural network (CNN) is extensively studied as a way to boost the performance of a small model. Recently, →

knowledge distillation convolutional neural network vision transformer feature-based distillation imagenet

发现论文，激发创造

从 CNN 提炼高效的视觉 Transformer 用于语义分割

我们提出了一种 CNN 到 ViT 知识蒸馏框架，包括视觉语言特征蒸馏模块 (VLFD) 和像素级解耦蒸馏模块 (PDD)，实验证明我们的方法在三个语义分割基准数据集上的 mIoU 增量是最先进知识蒸馏方法的 200% 以上。

Oct, 2023

累积空间知识蒸馏用于视觉 Transformers

该研究提出了 Cumulative Spatial Knowledge Distillation (CSKD) 方法，它能够在不引入中间特征的情况下，从相应的 CNN 空间响应中将空间上的知识传递到 ViT 的所有补丁令牌，并在训练过程中利用 Cumulative Knowledge Fusion 模块，以更好的利用 CNN 的局部归纳偏差，在 ImageNet-1k 和下游数据集上取得了优异的表现。

Jul, 2023

优秀的学生具备合作和可靠性：CNN-Transformer 语义分割的协同学习

本文介绍了一种在线知识蒸馏框架，通过选择和交换可靠知识来协同学习基于卷积神经网络（CNN）和视觉变压器（ViT）的模型，以进行语义分割。经过大量实验验证，我们提出的框架在大幅领先于现有的在线蒸馏方法的同时，展示了 ViT 和 CNN 模型之间协同学习的有效性。

Jul, 2023

DeiT-LT 蒸馏对长尾数据集的视觉 Transformer 训练再次起效

利用 DeiT-LT 方案能够在长尾数据集上从头开始训练 ViT，并使用蒸馏 DIST 令牌通过在 ViT 架构中使用不同的令牌来学习对应于多数和少数类的特征。

Apr, 2024

$V_kD:$ 使用正交投影来改进知识蒸馏

通过特征蒸馏方法，我们的研究提出了一种新的约束特征蒸馏方法，该方法可以应用于训练小型高效的深度学习模型，并在 ImageNet 数据集上获得了显著的性能提升。

Mar, 2024

解耦式知识蒸馏

通过将传统的知识蒸馏 (KD) 损失重构为 TCKD 和 NCKD 两部分，本文证明了 logit distillation 方法的潜在价值，并提出了解耦知识蒸馏 (DKD) 方法以更高效地发挥 TCKD 和 NCKD 的作用，从而在图像分类和目标检测任务的 CIFAR-100、ImageNet 和 MS-COCO 数据集上取得了可比甚至更好的结果和更好的训练效率。

Mar, 2022

基于类别注意力转移的知识蒸馏

提出了一种基于类别注意力传递的知识蒸馏（CAT-KD）方法，该方法不仅具有高解释性，还在多个基准测试中实现了最先进的性能，通过传输课程激活地图，从而提供了关于 CNN 的更好的理解，并改进了 CAT-KD 的解释性。

Apr, 2023

知识蒸馏的视觉语言模型压缩

本文提出 VL distillation，使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型，以提高图像字幕生成和视觉问答任务中的性能。

Apr, 2021

DearKD：用于 Vision Transformers 的数据高效早期知识蒸馏

本文提出了一种早期知识蒸馏框架 (DearKD)，通过从卷积神经网络的早期中间层中提取归纳偏差然后通过无蒸馏进行训练，以提高变压器所需的数据效率。我们还针对极端的零数据情况提出了一种基于 DeepInversion 的边界保留内部分歧损失，从而进一步缩小与完整数据对照组之间的性能差距。针对 ImageNet、partial ImageNet、无数据设置和其他下游任务的大量实验证明 DearKD 优于其基准和最先进的方法。

Apr, 2022

DistilDoc: 视觉内容丰富文档应用的知识蒸馏

针对视觉丰富的文档应用（如文档布局分析和文档图像分类），本文探讨了知识蒸馏（KD）。通过设计一种 KD 实验方法，我们研究了不同架构和容量的骨干模型之间的知识传递策略对教师 - 学生知识差距的影响，并发现一些方法可以始终优于监督学生训练。此外，我们设计了下游任务设置，评估了蒸馏的布局分析模型在零样本布局感知文档视觉问答上的鲁棒性，结果表明存在较大的知识差距，强调进一步探索如何高效获得更多的语义文档布局意识的必要性。

Jun, 2024