Apr, 2022

面向语义分割的动态焦点感知位置查询

TL;DR本文提出了一种名为DFPQ(Dynamic Focus-aware Positional Queries)的query设计方法,该方法基于前一个解码器块的跨注意力得分和相应图像特征的位置编码动态生成位置查询,同时通过仅基于低分辨率跨注意力分数聚合上下文令牌以执行局部关系聚合。经实验证明,在ADE20K和Cityscapes数据集上,该方法在Mask2former的基础上实现了SOTA表现,且ResNet-50、Swin-T和Swin-B等背骨在ADE20K验证集上的单尺度mIoU分别优于Mask2former 1.1%,1.9%和1.1%。