Jul, 2023

累积空间知识蒸馏用于视觉Transformers

TL;DR该研究提出了Cumulative Spatial Knowledge Distillation (CSKD)方法,它能够在不引入中间特征的情况下,从相应的CNN空间响应中将空间上的知识传递到ViT的所有补丁令牌,并在训练过程中利用Cumulative Knowledge Fusion模块,以更好的利用CNN的局部归纳偏差,在ImageNet-1k和下游数据集上取得了优异的表现。