K 均值掩码转换器
本文提出基于聚类的分割框架 Clustering Mask Transformer (CMT-DeepLab),该框架重构了现有的用于分割和检测的 Transformer 架构;CMT-DeepLab 将对象查询视为聚类中心,这些聚类中心可用于分割中像素的分组,并通过更密集、更一致的交叉注意力实现更好的分割结果。实验结果表明,CMT-DeepLab 在 COCO 测试集上达到了 55.7% 的 PQ,并较先前方法提高了 4.4% 的 PQ。
Jun, 2022
紧集分割的最新技术 MaX-DeepLab 使用全新的端对端方法,通过双向 CNN 信道和双倍展开使大规模各类实例的分割更准确。
Dec, 2020
提供一种新的架构 Mask2Former,该架构通过应用掩蔽注意力机制提取局部特征来解决多种类型的图像分割任务,包括全景分割、实体分割和语义分割,并且优于当前最佳的专门任务架构。
Dec, 2021
通过泛化基于簇预测的方法,将密集预测任务与掩膜变换器框架统一,我们提出的模型 PolyMaX 在 NYUD-v2 数据集的三个基准测试中展现了最先进的性能。
Nov, 2023
本文提出了 Multi-label Transformer architecture (MlTr) 并应用于多标签图像分类任务中,利用 windows partitioning、in-window pixel attention、cross-window attention 探索解决 CNN-based 方法遇到的关键问题并取得了性能显著提升。实验结果表明该方法在各种多标签数据集中表现出色,如 MS-COCO、Pascal-VOC 和 NUS-WIDE,分别达到 88.5%、95.8% 和 65.5%。
Jun, 2021
MaXTron 是一个利用轨迹注意力和 Mask XFormer 解决视频全景分割问题的通用框架,通过增强现成的遮罩变换器以及利用轨迹注意力来提高短期和长期跟踪结果,并且在视频分割基准测试中展示了最先进的表现。
Nov, 2023
利用平移等变性注意机制进行的无监督物体中心表示学习和多物体检测与分割架构,其中使用注意机制来预测场景中物体的坐标并为每个物体关联一个特征向量。
May, 2022
本文提出了 MST 方法,它可以显式捕捉图像的局部上下文并保留全局语义信息,在密集预测任务上有更好的性能,在多个数据集上得到验证,并优于同等时期的监督方法和其可比的变体 DINO。
Jun, 2021
该研究提出了一个新型变压器结构 MSMFormer,它模拟 vMF 均值漂移聚类算法,从而允许联合训练和推理特征提取器和聚类器。通过将该方法应用于未见物体实例分割,可以得到新的最先进效果,并且可以在 OCID 真实世界对象杂乱室内数据集上获得 87.3 边界 F 值。
Nov, 2022
本文提出一种 ReMaX 的新机制,通过在学习时添加对分割蒙版和类别蒙版的松弛约束,可以实现更高效的全景分割,使其更易于部署,同时可以与 MobileNetV3-Small 等高效 backbones 结合使用,从而在 COCO、ADE20K 和 Cityscapes 等数据集上取得最新的最新的最好成果。
Jun, 2023