Oct, 2023

低分辨率自注意力用于语义分割

TL;DR本文介绍了一种使用低分辨率自注意力机制的视觉 Transformer 模型,以较低的计算成本捕捉全局上下文,并在 ADE20K、COCO-Stuff 和 Cityscapes 数据集上表现出优于现有模型的性能。