Mask DINO: 基于 Transformer 的统一物体检测与分割框架

Jun, 2022

Mask DINO: 基于 Transformer 的统一物体检测与分割框架

Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

Feng Li, Hao Zhang, Huaizhe xu, Shilong Liu, Lei Zhang...

TL;DR这篇论文介绍了 Mask DINO，一种统一的物体检测和分割框架，能够通过 DOT product 技术预测出一组二进制掩模，进行各种图像分割任务（实例、全景和语义）。它能够从联合大规模检测和分割数据集中获益，并且显示了卓越的性能优势。

Abstract

In this paper we present mask dino, a unified object detection and segmentation framework. →

mask dino object detection segmentation query embeddings binary masks

发现论文，激发创造

DINO: 改进去噪锚框的端到端物体检测 DET-BR

本文介绍了 DINO（带有改进去噪技术和锚框选择方法的 DETR 模型），是一种最先进的端到端对象检测器，通过使用对比方式的去噪训练、混合查询选择方法的锚初始化以及两次向前的方案了来改进 DETR 模型，该模型使用 ResNet-50 的主干和多尺度特征，在 COCO 数据集上的 12 个时期达到 49.4AP，69.3% val mAP (63.3AP & 63.2AP)，并且可以很好地扩展到模型大小和数据集大小。

Mar, 2022

NamedMask: 从补充基础模型中提取分割模型

本文提出 NamedMask 方法，采用 CLIP 和 DINO 两个模型相辅相成的特点，构建一种用于图像分割的模型，实现根据类别对图像进行语义分割，并在 VOC2012、COCO 和 ImageNet-S 等数据集上实验，取得了令人瞩目的结果。

Sep, 2022

冻结掩码 DETR: 一个 GPU 实现高质量实例分割

建立一个强大的实例分割器，通过引入一个简单通用的框架 Mask Frozen-DETR，可以将任何现有的 DETR-based 目标检测模型转换为一个强大的实例分割模型，从而在性能和训练效率方面超过了最先进的实例分割方法 Mask DINO。

Aug, 2023

TensorMask: 基于张量的密集物体分割基础

本文研究了密集滑动窗口实例分割的范例，将其作为 4D 张量预测任务，提出了一种称为 TensorMask 的通用框架，可以明确捕获几何信息和使预测更加准确，比现有的模型具有更好的性能表现。

Mar, 2019

掩码 R-CNN

我们提出了一个简单、灵活、通用的物体实例分割框架。此方法名为 Mask R-CNN，通过在现有的边界框识别分支上添加一个预测对象掩模的分支，同时高效地检测图像中的物体并生成每个实例的高质量分割掩模。该方法简单易用，可快速训练，并且在 COCO 挑战赛的三个跟踪任务中均取得最佳结果，在实例分割、边界框目标检测和人体关键点检测方面均表现优异，是一个强大的基线模型。

Mar, 2017

统一目标圈定与检测的开放和全面流程

MM-Grounding-DINO 是一个开源、综合且易于使用的基线模型，通过使用丰富的视觉数据集进行预训练和各种检测和定位数据集进行微调，对 Grounding-DINO 模型进行了全面分析和复现，实验证明了其优于 Grounding-DINO 的效果，并将所有模型发布给研究社区。

Jan, 2024

SEMPART: 自监督多分辨率图像语义分区

该论文提出了 SEMPART 算法，它能够快速生成高质量的掩码，同时在图像的 DINO-based 语义图上联合推断粗细二分图，用图驱动的正则化方法保留了边界细节，并成功地将粗略的掩码语义提炼为精细的掩码语义。

Sep, 2023

被注意力背叛：一种简洁而有效的自监督视频对象分割方法

我们提出了一个简单而有效的方法来进行自监督视频对象分割 (VOS)。我们的关键观点是，DINO 预训练的 Transformer 中具有的固有结构依赖性可以用于建立视频中的稳健时空对应关系。此外，利用这种对应线索进行简单的聚类就足以产生具有竞争力的分割结果。我们开发了一个简化的架构来应对这些挑战，利用 DINO 预训练的 Transformer 中新兴的对象性，避免了使用额外的多模态或槽关注的需要。我们的方法在多个无监督 VOS 基准测试中展示了最先进的性能，特别在复杂的现实世界多对象视频分割任务中表现出色，如 DAVIS-17-Unsupervised 和 YouTube-VIS-19。

Nov, 2023

适应预训练视觉模型用于新颖实例检测和分割

利用新颖实例检测和分割 (NIDS) 的统一框架 (NIDS-Net)，包括物体提案生成、实例模板和提案区域的嵌入创建，以及实例标签分配的嵌入匹配，通过前沿特征平均和权重适配器机制生成高质量实例嵌入，取得显著性能提升。

May, 2024

基于基础模型时代的少样本语义分割新基准

在计算机视觉中，我们比较了四种著名的视觉基础模型（DINO V2，Segment Anything，CLIP，Masked AutoEncoders 和在 COCO 数据集上预训练的 ResNet50），发现 DINO V2 在各种数据集和适应方法上始终优于其他模型，突出了其在语义分割任务上的优越适应能力。此外，我们观察到各种适配器方法表现相似，强调了选择稳健特征提取器比适应技术本身的复杂性更为重要，这一发现揭示了在少样本语义分割情境中特征提取的关键作用。此研究不仅为少样本语义分割领域的视觉基础模型的比较性能提供宝贵见解，还强调了稳健特征提取器在该领域的重要性。

Jan, 2024