Apr, 2021

LocalViT: 将局部性带入视觉 Transformer

TL;DR通过引入深度卷积来将局部性机制引入视觉变换器中,结果显示,在 ImageNet2012 分类任务上,增强了局部性的转换器在不增加参数和计算努力的情况下,优于基线模型 DeiT-T 和 PVT-T 达 2.6% 和 3.1%。