Sep, 2023

少样本检测一切

TL;DR本文介绍了 DE-ViT,这是一个使用纯视觉 DINOv2 骨干网络的开放集对象检测器,通过示例图像而不是语言来学习新的类别。为了提高检测能力,我们将多类别分类任务转换为二分类任务,并提出了一种新的区域传播技术来进行定位。在 COCO 和 LVIS 的开放词汇、少样本和一次样本对象检测基准测试中,DE-ViT 的性能超过了 SoTA。