推进 DINO 1.5: 开拓开放集合目标检测的 “边缘
MM-Grounding-DINO 是一个开源、综合且易于使用的基线模型,通过使用丰富的视觉数据集进行预训练和各种检测和定位数据集进行微调,对 Grounding-DINO 模型进行了全面分析和复现,实验证明了其优于 Grounding-DINO 的效果,并将所有模型发布给研究社区。
Jan, 2024
本文介绍了 DINO(带有改进去噪技术和锚框选择方法的 DETR 模型),是一种最先进的端到端对象检测器,通过使用对比方式的去噪训练、混合查询选择方法的锚初始化以及两次向前的方案了来改进 DETR 模型,该模型使用 ResNet-50 的主干和多尺度特征,在 COCO 数据集上的 12 个时期达到 49.4AP,69.3% val mAP (63.3AP & 63.2AP),并且可以很好地扩展到模型大小和数据集大小。
Mar, 2022
这篇论文介绍了 Mask DINO,一种统一的物体检测和分割框架,能够通过 DOT product 技术预测出一组二进制掩模,进行各种图像分割任务(实例、全景和语义)。它能够从联合大规模检测和分割数据集中获益,并且显示了卓越的性能优势。
Jun, 2022
基于端到端的基于 Transformer 的检测器(DETRs)通过语言模态的融合在封闭集和开放词汇目标检测(OVD)任务中展现出了异常优秀的性能。然而,其对计算资源的需求限制了其在实时目标检测(OD)场景中的实际应用。本文针对 OVDEval 基准测试中两个主要模型 OmDet 和 Grounding-DINO 的限制进行了详细研究,并引入了 OmDet-Turbo。这个新型的基于 Transformer 的实时 OVD 模型具备创新的高效融合头(EFH)模块,旨在缓解 OmDet 和 Grounding-DINO 中存在的瓶颈问题。值得注意的是,OmDet-Turbo-Base 在应用 TensorRT 和语言缓存技术的情况下,实现了 100.2 帧 / 秒(FPS)的速度。值得注意的是,在 COCO 和 LVIS 数据集的零样本情况下,OmDet-Turbo 实现了与当前最先进的有监督模型几乎相当的性能水平。此外,它在 ODinW 和 OVDEval 上建立了新的最先进基准,分别具有 30.1 的 AP 和 26.86 的 NMS-AP。OmDet-Turbo 在工业应用中的实用性得到了证明,其在基准数据集上表现出的优异性能和卓越的推理速度使其成为实时目标检测任务的一个引人注目的选择。
Mar, 2024
本文提出了 Focal-Stable-DINO,一个强大且可复制的物体检测模型,仅使用 700M 参数即可在 COCO val2017 上达到 64.6 AP,在 COCO test-dev 上达到 64.8 AP。与现有 SOTA 模型不同,我们的模型仅在公开数据集 Objects365 上进行训练,确保我们方法的可重复性。
Apr, 2023
利用新颖实例检测和分割 (NIDS) 的统一框架 (NIDS-Net),包括物体提案生成、实例模板和提案区域的嵌入创建,以及实例标签分配的嵌入匹配,通过前沿特征平均和权重适配器机制生成高质量实例嵌入,取得显著性能提升。
May, 2024
本研究全面评估了基于自学习的 DINOv2 模型在放射学领域的应用,通过超过 100 个实验在不同模态下进行疾病分类和器官分割等任务,发现 DINOv2 在分割任务中表现优越,在疾病分类中具有竞争力的结果。这些发现为优化医学影像的预训练策略和加强 DINOv2 在自然图像与放射图像分析之间的桥梁作用提供了深入的见解。
Dec, 2023
本文探讨了高质量的可视特征是否足以与现有的最先进的视觉语言模型竞争,并通过将 DINOv2 适应于一次性和少量次数的异常检测来证实这一点,重点放在工业应用上。我们表明这种方法不仅能与现有技术竞争,而且在许多情况下甚至能胜过它们。我们提出的仅视觉方法 AnomalyDINO 基于补丁相似性,能够实现图像级别的异常预测和像素级的异常分割。该方法在方法论上简单且无需训练,因此无需额外的数据进行微调或元学习。尽管简单,但 AnomalyDINO 在一次性和少量次数的异常检测方面取得了最先进的成果(例如,将 MVTec-AD 上的一次性性能从 93.1%的 AUROC 提升至 96.6%)。降低的开销以及出色的少量次数性能使 AnomalyDINO 成为快速部署的有力候选,例如在工业环境中。
May, 2024
本文介绍了 DE-ViT,这是一个使用纯视觉 DINOv2 骨干网络的开放集对象检测器,通过示例图像而不是语言来学习新的类别。为了提高检测能力,我们将多类别分类任务转换为二分类任务,并提出了一种新的区域传播技术来进行定位。在 COCO 和 LVIS 的开放词汇、少样本和一次样本对象检测基准测试中,DE-ViT 的性能超过了 SoTA。
Sep, 2023
该研究论文介绍了一种开放式语义和语境视频定位模型,通过使用预训练的空间定位模型,克服了固定词汇和有限训练数据的限制,取得了在闭合式和开放式语境下的卓越性能。
Dec, 2023