冻结掩码 DETR: 一个 GPU 实现高质量实例分割
这篇论文介绍了 Mask DINO,一种统一的物体检测和分割框架,能够通过 DOT product 技术预测出一组二进制掩模,进行各种图像分割任务(实例、全景和语义)。它能够从联合大规模检测和分割数据集中获益,并且显示了卓越的性能优势。
Jun, 2022
本文提出了第一款实时端到端物体检测器 ——Real-Time DEtection TRansformer(RT-DETR),支持灵活调整推理速度且在速度和准确度上均优于同一规模的 YOLO 检测器以及 DINO-Deformable-DETR-R50 模型,采用了高效的混合编码器处理多尺度特征并提出 IoU 感知的查询选择。
Apr, 2023
本研究探讨了使用 DEtection TRansformer(DETR)检测医学成像中可疑区域的可行性,研究表明这种方法能够与甚至优于当前方法进行匹配,且无需依赖锚点或手动启发式设计等方式来检测对象。
Jun, 2023
通过对最新的自我监督训练方法进行实验,发现之前的代表性自我监督方法无法提升强 DET-based 方法在完整数据范围上的性能,但通过结合更准确的盒子预测器和 Objects365 基准可以显著提高后续实验的结果,在 COCO 验证集上实现了 AP=59.3% 的强大目标检测结果,超过了 H-Deformable-DETR + Swin-L 的 1.4%;此外,通过合成的预训练数据集(LLaVA 和 SDXL 的组合)进行预训练,可以显著提高目标检测性能,并且在未来扩展合成预训练数据集方面有巨大优势。
Aug, 2023
该研究提出了一种新方法,将目标检测作为直接集合预测问题进行处理,主要采用基于集合的全局损失和 Transformer 编码器 - 解码器架构构建 DETR 模型,能够高效地完成目标检测和全景分割任务,相较于许多现代检测器,DETR 模型概念简单且不需要专门的库。
May, 2020
引入一种基于等级的 DETR 目标检测器 Rank-DETR,通过一系列等级化设计,包括等级化架构设计和损失函数设计,提高了准确性和定位精度,并成功应用于最新的 SOTA 方法,展示了其有效性。
Oct, 2023
Deformable DETR 提出了一种改进的 Transformer 注意力模块,只关注于围绕参考点的一小集采样点,能够更好地实现物体检测,尤其是在小物体上,并在 COCO 基准测试上得到了有效的实验结果。
Oct, 2020
本文介绍了一种基于注意力机制的细胞检测变换器 (Cell-DETR), 该方法可直接进行端到端实例分割,具有快速准确的实现分割性能,并可提高后验数据处理的实验信息输出,实现在线监测实验和封闭回路最优实验设计等功能。
Nov, 2020
本论文介绍了一种改进的 DETR 检测器,它采用了 “简洁” 的设计,使用单尺度特征图和全局交叉注意力计算,并没有特定的局部约束,与之前基于 DETR 的主要检测器相比,没有重新引入多尺度和局部性的架构偏好。我们展示了两种简单的技术在简洁设计中的出人意料的有效性,以弥补多尺度特征图和局部性约束缺失的问题。第一种是将盒子到像素相对位置偏差(BoxRPB)项添加到交叉注意力公式中,它很好地指导每个查询与对应的对象区域相互关注,并提供了编码灵活性。第二种是基于遮蔽图像模型(MIM)的骨干预训练,有助于学习具有细粒度定位能力的表示,并且对于补救对多尺度特征图的依赖是至关重要的。通过结合这些技术和最新的训练方法和问题形成策略,改进的 “简洁” DETR 检测器在原始 DETR 检测器的基础上取得了显著的改进。通过利用 Object365 数据集进行预训练,使用 Swin-L 骨干网络达到了 63.9 的平均精度(mAP),与依赖于多尺度特征图和基于区域的特征提取的最先进的检测器性能相媲美。代码在此 https URL 中提供。
Aug, 2023
使用 DETR 为基础的目标检测器,通过无监督预训练和利用大量未标记数据来提高检测器的性能,采用更丰富、基于语义的初始提议、基于聚类的物体伪标签的判别性训练以及自我训练等三个关键因素,显著提升了 DETR 在完整和低数据情况下的性能,并且证明能够在复杂图像数据集上从头开始预训练,直接实现无监督表示学习。
Jul, 2023