May, 2023

使视觉 Transformer 真正具有 Shift-Equivariant 性质

TL;DR提出改进的模块设计,使得 Vision Transformers 在图像分类和语义分割任务中具有真正的平移不变性,并在三个不同数据集上实现了有竞争力的性能表现。