ICCVJul, 2023

累积空间知识蒸馏用于视觉 Transformers

TL;DR该研究提出了 Cumulative Spatial Knowledge Distillation (CSKD) 方法,它能够在不引入中间特征的情况下,从相应的 CNN 空间响应中将空间上的知识传递到 ViT 的所有补丁令牌,并在训练过程中利用 Cumulative Knowledge Fusion 模块,以更好的利用 CNN 的局部归纳偏差,在 ImageNet-1k 和下游数据集上取得了优异的表现。