CVPRNov, 2021

NomMer: 借助视觉 Transformer 提名协同上下文进行视觉识别

TL;DR本论文提出一种新的 ViT 结构,称为 NomMer,实现了动态提名协同全局 - 局部上下文的功能。NomMer 在 ImageNet 数据集上取得了 84.5%的 Top-1 分类精度,并在目标检测和语义分割等密集预测任务上表现出良好性能。