Mask DINO: 基于 Transformer 的统一物体检测与分割框架
本文介绍了 DINO(带有改进去噪技术和锚框选择方法的 DETR 模型),是一种最先进的端到端对象检测器,通过使用对比方式的去噪训练、混合查询选择方法的锚初始化以及两次向前的方案了来改进 DETR 模型,该模型使用 ResNet-50 的主干和多尺度特征,在 COCO 数据集上的 12 个时期达到 49.4AP,69.3% val mAP (63.3AP & 63.2AP),并且可以很好地扩展到模型大小和数据集大小。
Mar, 2022
本文提出 NamedMask 方法,采用 CLIP 和 DINO 两个模型相辅相成的特点,构建一种用于图像分割的模型,实现根据类别对图像进行语义分割,并在 VOC2012、COCO 和 ImageNet-S 等数据集上实验,取得了令人瞩目的结果。
Sep, 2022
建立一个强大的实例分割器,通过引入一个简单通用的框架 Mask Frozen-DETR,可以将任何现有的 DETR-based 目标检测模型转换为一个强大的实例分割模型,从而在性能和训练效率方面超过了最先进的实例分割方法 Mask DINO。
Aug, 2023
本文研究了密集滑动窗口实例分割的范例,将其作为 4D 张量预测任务,提出了一种称为 TensorMask 的通用框架,可以明确捕获几何信息和使预测更加准确,比现有的模型具有更好的性能表现。
Mar, 2019
我们提出了一个简单、灵活、通用的物体实例分割框架。此方法名为 Mask R-CNN,通过在现有的边界框识别分支上添加一个预测对象掩模的分支,同时高效地检测图像中的物体并生成每个实例的高质量分割掩模。该方法简单易用,可快速训练,并且在 COCO 挑战赛的三个跟踪任务中均取得最佳结果,在实例分割、边界框目标检测和人体关键点检测方面均表现优异,是一个强大的基线模型。
Mar, 2017
MM-Grounding-DINO 是一个开源、综合且易于使用的基线模型,通过使用丰富的视觉数据集进行预训练和各种检测和定位数据集进行微调,对 Grounding-DINO 模型进行了全面分析和复现,实验证明了其优于 Grounding-DINO 的效果,并将所有模型发布给研究社区。
Jan, 2024
该论文提出了 SEMPART 算法,它能够快速生成高质量的掩码,同时在图像的 DINO-based 语义图上联合推断粗细二分图,用图驱动的正则化方法保留了边界细节,并成功地将粗略的掩码语义提炼为精细的掩码语义。
Sep, 2023
我们提出了一个简单而有效的方法来进行自监督视频对象分割 (VOS)。我们的关键观点是,DINO 预训练的 Transformer 中具有的固有结构依赖性可以用于建立视频中的稳健时空对应关系。此外,利用这种对应线索进行简单的聚类就足以产生具有竞争力的分割结果。我们开发了一个简化的架构来应对这些挑战,利用 DINO 预训练的 Transformer 中新兴的对象性,避免了使用额外的多模态或槽关注的需要。我们的方法在多个无监督 VOS 基准测试中展示了最先进的性能,特别在复杂的现实世界多对象视频分割任务中表现出色,如 DAVIS-17-Unsupervised 和 YouTube-VIS-19。
Nov, 2023
利用新颖实例检测和分割 (NIDS) 的统一框架 (NIDS-Net),包括物体提案生成、实例模板和提案区域的嵌入创建,以及实例标签分配的嵌入匹配,通过前沿特征平均和权重适配器机制生成高质量实例嵌入,取得显著性能提升。
May, 2024
在计算机视觉中,我们比较了四种著名的视觉基础模型(DINO V2,Segment Anything,CLIP,Masked AutoEncoders 和在 COCO 数据集上预训练的 ResNet50),发现 DINO V2 在各种数据集和适应方法上始终优于其他模型,突出了其在语义分割任务上的优越适应能力。此外,我们观察到各种适配器方法表现相似,强调了选择稳健特征提取器比适应技术本身的复杂性更为重要,这一发现揭示了在少样本语义分割情境中特征提取的关键作用。此研究不仅为少样本语义分割领域的视觉基础模型的比较性能提供宝贵见解,还强调了稳健特征提取器在该领域的重要性。
Jan, 2024