CVPRMay, 2023

区域感知预训练与视觉 Transformer 实现开放式目标检测

TL;DR提出了一种区域感知的开放词汇视觉 Transformer(RO-ViT)预训练方法,其中使用区域级别的位置嵌入来代替整个图像位置嵌入,取得了在 LVIS 和 COCO 开放词汇检测基准测试的最佳效果。