Jun, 2021

金字塔视觉变换器改进基线 PVT v2

TL;DR本文介绍了改进原 Pyramid Vision Transformer (PVT v1) 的三种新方法,并将其命名为 PVT v2。其中包括线性复杂度注意层、重叠的贴片嵌入以及卷积前馈网络。经过这些修改,PVT v2 通过使计算复杂度线性化,显著提高了基础视觉任务(如分类、检测和分割)的性能,并取得了与最近的 Swin Transformer 等其他作品相当或更好的表现。希望这项工作能促进计算机视觉领域中最先进的 Transformer 研究。