CVPRMar, 2023

自上而下的分析合成视觉注意力

TL;DR本文提出了一种从经典分析合成视觉的角度来考虑自下而上的视觉任务导向注意的方法,并构建了一种名为 AbSViT 的基于 Vision Transformer 的模型,该模型在视觉语言任务中有较好的表现,并可用作分类、语义分割和模型稳健性等各种应用的通用骨干网络。