共同指导：跨归纳偏差蒸馏

Jun, 2021

Co-advise: Cross Inductive Bias Distillation

Sucheng Ren, Zhengqi Gao, Tianyu Hua, Zihui Xue, Yonglong Tian...

TL;DR该研究提出了一种新颖的基于蒸馏的方法，用于训练视觉 transformers，并取得了比先前同等架构的 transformers 更好的性能，该方法的关键是使用具有不同归纳偏差的轻量级 teachers 来共同指导 student transformer，从而实现不同的知识交汇和提升。

Abstract

transformers recently are adapted from the community of natural language processing as a promising substitute of convolution-based neural networks for visual learning tasks. However, its supremacy degenerates given an insufficient amount of training data (e.g., →

transformers vision distillation inductive biases imagenet

发现论文，激发创造

提炼归纳偏见：超越模型压缩的知识蒸馏

通过集成式蒸馏方法从轻量级教师模型中蒸馏归纳偏差，我们介绍了一种创新的蒸馏方法，以支持视觉转换和文本领域之间的统一信息处理，提高了学生性能，并减轻了计算负担和提高了效率。

Sep, 2023

知识蒸馏传递诱导偏置

该研究探讨了在模型之间利用知识蒸馏的方法将归纳偏差迁移的可行性和效果，以不同归纳偏差的模型（LSTMs vs. Transformers 和 CNNs vs. MLPs）为例，研究了归纳偏差对模型收敛结果的影响以及知识蒸馏的迁移效果。

May, 2020

InBiaseD: 通过感知形状来改善归纳偏置蒸馏从而提高泛化性能和鲁棒性

提出了 InBiaseD 来提取感知偏倚和为神经网络带来形状意识。该方法通过偏差对齐目标来强制学习更通用的表示，从而减轻了深度神经网络中的一些缺点，如易受损的数据。 InBiaseD 通过无缝插入现有的对抗训练方案，对改善分类和鲁棒性之间的平衡起到了帮助的作用。

Jun, 2022

基于注意力机制的高效图像变换及蒸馏训练

通过使用注意力机制的神经网络，我们以卷积神经网络为教师，在 ImageNet 上训练单个计算机下的优秀可比拟的转换器，并引入了基于蒸馏令牌的教师 - 学生策略，以获得竞争性结果。

Dec, 2020

权重复制与低秩适应：视觉 Transformer 的少样本蒸馏

利用少样本的知识蒸馏方法来提取大规模预训练模型的知识，通过复制视觉变换器的权重并采用改进的低秩适应方法，将知识传输到学生模型中，并通过实证实验验证方法的优越性。

Apr, 2024

DeiT-LT 蒸馏对长尾数据集的视觉 Transformer 训练再次起效

利用 DeiT-LT 方案能够在长尾数据集上从头开始训练 ViT，并使用蒸馏 DIST 令牌通过在 ViT 架构中使用不同的令牌来学习对应于多数和少数类的特征。

Apr, 2024

DearKD：用于 Vision Transformers 的数据高效早期知识蒸馏

本文提出了一种早期知识蒸馏框架 (DearKD)，通过从卷积神经网络的早期中间层中提取归纳偏差然后通过无蒸馏进行训练，以提高变压器所需的数据效率。我们还针对极端的零数据情况提出了一种基于 DeepInversion 的边界保留内部分歧损失，从而进一步缩小与完整数据对照组之间的性能差距。针对 ImageNet、partial ImageNet、无数据设置和其他下游任务的大量实验证明 DearKD 优于其基准和最先进的方法。

Apr, 2022

卷积初始化用于数据高效的视觉 Transformer 模型

我们研究了在小数据集上训练视觉转换网络所面临的挑战，发现卷积神经网络可以通过利用其体系结构归纳偏差实现最先进的性能。我们探索了这种归纳偏差是否可以重新解释为视觉转换网络中的初始化偏差，并提出了一种新的初始化策略，可以在小数据集上实现与卷积神经网络相当的性能，同时保留其架构的灵活性。

Jan, 2024

从 CNN 提炼高效的视觉 Transformer 用于语义分割

我们提出了一种 CNN 到 ViT 知识蒸馏框架，包括视觉语言特征蒸馏模块 (VLFD) 和像素级解耦蒸馏模块 (PDD)，实验证明我们的方法在三个语义分割基准数据集上的 mIoU 增量是最先进知识蒸馏方法的 200% 以上。

Oct, 2023

优秀的学生具备合作和可靠性：CNN-Transformer 语义分割的协同学习

本文介绍了一种在线知识蒸馏框架，通过选择和交换可靠知识来协同学习基于卷积神经网络（CNN）和视觉变压器（ViT）的模型，以进行语义分割。经过大量实验验证，我们提出的框架在大幅领先于现有的在线蒸馏方法的同时，展示了 ViT 和 CNN 模型之间协同学习的有效性。

Jul, 2023