掩模关注掩模变换器用于通用图像分割
本文介绍了一种基于掩模驱动 Transformer 的方法,通过使用噪声原始掩模进行训练和获取更一致的优化目标来提高 Mask2Former 的掩模注意力在图像分割中的表现,实验结果表明,该方法可显著提升实例分割、全景分割和语义分割的精度,并且训练速度更快,不会在推断阶段引入额外的计算。
Mar, 2023
将传统的按像素分类的方法转变为基于掩码分类的方法,提出了 Mask2Anomaly 方法来解决异常分割、开放集语义分割和开放集全景分割问题,并引入了全局掩码注意力模块、掩码对比学习、掩码细化解决方案和基于掩码架构特性的未知实例挖掘。经过全面的定性和定量评估,我们展示了 Mask2Anomaly 在异常分割、开放集语义分割和开放集全景分割基准中取得了最新的最佳结果。
Sep, 2023
通过直接预测 3D 分割体积,我们展示了通用的图像分割架构轻松推广到视频分割领域,Mask2Former 在视频实例分割方面也取得了最先进的性能,同时在 YouTubeVIS-2019 和 YouTubeVIS-2021 上分别达到了 60.4 AP 和 52.6 AP。由于在图像分割方面的多才多艺,我们相信 Mask2Former 也能处理视频语义和全景分割,我们希望这将使最新的视频分割研究更易于使用并引起更多人对通用图像和视频分割架构的关注。
Dec, 2021
最近基于 Transformer 的架构在图像分割领域取得了令人印象深刻的成果。为了填补传统架构在计算资源上的限制,本文提出了一种高效的基于原型的 Transformer 架构 (PEM),它利用视觉特征的冗余性来限制计算并提高效率,同时引入了高效的多尺度特征金字塔网络,能够高效地提取具有高语义内容的特征。在两个不同的数据集上对 PEM 架构进行了测试和评估,表现出色,优于特定任务的架构,并且与计算代价较高的基准模型相媲美甚至更优。
Feb, 2024
本文提出了 SeMask 框架,将语义信息嵌入预训练分层 Transformer 模块的编码器中以提高模型性能,并使用轻量级语义解码器进行训练。实验结果表明,嵌入语义先验可以显著提高模型效果,并且与 Swin Transformer 和 Mix Transformer 等模型相结合,达到了 58.25%的 mIoU 表现。
Dec, 2021
本文研究了 transformers 在图像识别中的应用,提出了一种基于聚类的 k-means Mask Xformer (kMaX-DeepLab) 模型,在多项数据集上均取得了新的最佳表现,为以后的视觉任务中 transformers 的设计提供了参考。
Jul, 2022
本研究提出了一种基于 Transformer 的 Feature Pyramid Fusion Transformer (PFT) 方法,结合学习到的查询和 Feature Pyramid 中的每个空间特征进行交叉注意力和交叉尺度的互补信息交换,提高了面向掩码的语义分割性能,并在三个广泛使用的语义分割数据集上达到了与现有最佳方法相比的最先进的性能。
Jan, 2022
提出了 TubeFormer-DeepLab 模型,它是第一次以统一的方式处理多种核心视频分割任务。通过直接预测标注不同值的视频管道,该模型不仅显着简化了视频分割模型,而且在多个视频分割基准测试中取得了最先进的结果。
May, 2022
本文提出了一种统一、简单、有效的模型 OneFormer3D,利用可学习的卷积核同时处理实例分割和语义分割,通过输入统一的实例和语义查询来训练,并在 ScanNet 测试排行榜中取得了第一名和新的最佳性能,同时在 ScanNet、ScanNet200 和 S3DIS 数据集上展示了最领先的语义、实例和全景分割结果。
Nov, 2023
提出了基于掩膜分类模型的方法 MaskFormer,通过预测一组二进制掩膜,使语义分割和全景分割任务的解决变得统一,并在各项指标上实现了优秀的实验结果。
Jul, 2021