提供一种新的架构 Mask2Former,该架构通过应用掩蔽注意力机制提取局部特征来解决多种类型的图像分割任务,包括全景分割、实体分割和语义分割,并且优于当前最佳的专门任务架构。
Dec, 2021
本文研究了 transformers 在图像识别中的应用,提出了一种基于聚类的 k-means Mask Xformer (kMaX-DeepLab) 模型,在多项数据集上均取得了新的最佳表现,为以后的视觉任务中 transformers 的设计提供了参考。
Jul, 2022
本文提出了一种名为 DFPQ(Dynamic Focus-aware Positional Queries)的 query 设计方法,该方法基于前一个解码器块的跨注意力得分和相应图像特征的位置编码动态生成位置查询,同时通过仅基于低分辨率跨注意力分数聚合上下文令牌以执行局部关系聚合。经实验证明,在 ADE20K 和 Cityscapes 数据集上,该方法在 Mask2former 的基础上实现了 SOTA 表现,且 ResNet-50、Swin-T 和 Swin-B 等背骨在 ADE20K 验证集上的单尺度 mIoU 分别优于 Mask2former 1.1%,1.9%和 1.1%。
Apr, 2022
使用集合转换器在分层框架中对点云进行形状分类和分割,实现了状态 - of-the-art 的性能,并可用于处理大规模稀疏数据。
本文证明了自注意力结构足以实现信息聚合,无需进行结构适应以及对于目标跟踪提取辨别特征和增强目标和搜索图像之间的通信。通过采用基本的视觉 Transformer(ViT)架构作为主跟踪器,并将模板和搜索图像进行特征嵌入,进而提出了一种紧凑的变换跟踪器。该跟踪器仅由一个 ViT 主干和一个框头组成,可以以每秒 40 帧的速度运行,并在多个测试数据集上实现了最先进的跟踪效果。
Jan, 2023
利用平移等变性注意机制进行的无监督物体中心表示学习和多物体检测与分割架构,其中使用注意机制来预测场景中物体的坐标并为每个物体关联一个特征向量。
May, 2022
本文提出了一种基于中心点的变换网络 ——CenterFormer,它使用查询嵌入来聚合中心候选点的特征向量,并设计了一种通过交叉注意力来融合多帧特征的方法。在 Waymo Open 数据集上,CenterFormer 在单个模型上实现了先进水平,取得了 73.7% 的验证集和 75.6% 的测试集 mAPH, 显著优于以前所有已发表的基于 CNN 和 transformer 的方法。
Sep, 2022
本文提出了一种基于空间注意的中心掩码的实例分割方法,通过添加一个新的空间注意引导掩模模块在 FCOS 物体检测器中进行预测,并在改进的背骨网络 VoVNetV2 的支持下设计了针对大型和小型模型的 CenterMask 和 CenterMask-Lite,实现了在 ResNet-101-FPN 的相同骨干网络下的实时实例分割,性能优于所有之前的最先进方法,同时速度更快。
Nov, 2019
通过利用 DINO ViT 特征的集合查询表示来重建输入特征,我们提出了一种基于物体为中心的方法,通过遮罩输入特征,有选择性地忽略背景区域,以便模型在重建阶段更关注显著对象。此外,我们将 slot attention 拓展为多查询方法,使模型学习多套槽,产生更稳定的遮罩。我们在 PASCAL-VOC 2012 数据集上的实验结果和验证显示了每个组件的重要性,并突出了它们的组合如何不断改善物体定位。
Apr, 2024
将任务级信息整合到编码阶段,采用软掩码并使用任务级查询和关键字生成的注意力权重学习来增强 SMTransformer 的性能,同时通过跳跃注意力上采样块动态融合来自编码和解码层的各种分辨率点的特征,以在点云处理任务中实现最先进的语义分割结果。
Mar, 2024