MP-Former:基于遮罩引导的 Transformer 图像分割算法
提供一种新的架构 Mask2Former,该架构通过应用掩蔽注意力机制提取局部特征来解决多种类型的图像分割任务,包括全景分割、实体分割和语义分割,并且优于当前最佳的专门任务架构。
Dec, 2021
本研究提出了一种基于 Transformer 的 Feature Pyramid Fusion Transformer (PFT) 方法,结合学习到的查询和 Feature Pyramid 中的每个空间特征进行交叉注意力和交叉尺度的互补信息交换,提高了面向掩码的语义分割性能,并在三个广泛使用的语义分割数据集上达到了与现有最佳方法相比的最先进的性能。
Jan, 2022
通过直接预测 3D 分割体积,我们展示了通用的图像分割架构轻松推广到视频分割领域,Mask2Former 在视频实例分割方面也取得了最先进的性能,同时在 YouTubeVIS-2019 和 YouTubeVIS-2021 上分别达到了 60.4 AP 和 52.6 AP。由于在图像分割方面的多才多艺,我们相信 Mask2Former 也能处理视频语义和全景分割,我们希望这将使最新的视频分割研究更易于使用并引起更多人对通用图像和视频分割架构的关注。
Dec, 2021
SegFormer 是一种简单、高效而强大的语义分割框架,它将 Transformers 和轻量级的多层感知机解码器统一在一起。我们展示了这种轻量简单设计对提高 Transformers 语义分割效率的关键所在,并为 SegFormer 构建了一系列模型,其中最好的模型 - SegFormer-B5,在 Cityscapes 验证集上达到了 84.0%的 mIoU,显示了出色的零 - shot 鲁棒性。
May, 2021
最近基于 Transformer 的架构在图像分割领域取得了令人印象深刻的成果。为了填补传统架构在计算资源上的限制,本文提出了一种高效的基于原型的 Transformer 架构 (PEM),它利用视觉特征的冗余性来限制计算并提高效率,同时引入了高效的多尺度特征金字塔网络,能够高效地提取具有高语义内容的特征。在两个不同的数据集上对 PEM 架构进行了测试和评估,表现出色,优于特定任务的架构,并且与计算代价较高的基准模型相媲美甚至更优。
Feb, 2024
本文提出了 SeMask 框架,将语义信息嵌入预训练分层 Transformer 模块的编码器中以提高模型性能,并使用轻量级语义解码器进行训练。实验结果表明,嵌入语义先验可以显著提高模型效果,并且与 Swin Transformer 和 Mix Transformer 等模型相结合,达到了 58.25%的 mIoU 表现。
Dec, 2021
本文研究了 transformers 在图像识别中的应用,提出了一种基于聚类的 k-means Mask Xformer (kMaX-DeepLab) 模型,在多项数据集上均取得了新的最佳表现,为以后的视觉任务中 transformers 的设计提供了参考。
Jul, 2022
使用 transformers 建立了一种稳健的跟踪框架 MixFormer,采用混合注意力模块(MAM)实现了特征提取和目标信息的同步建模,同时在 LaSOT、TrackingNet、VOT2020、GOT-10k 和 UAV123 等五个基准测试数据集上取得了最新的最高成功率和 EAO 评分。
Mar, 2022
我们提出了一种新的变换器解码器 U-MixFormer,基于 U-Net 结构设计的,用于高效的语义分割。通过在编码器和解码器阶段之间利用侧连接作为特征查询,我们的方法与以前的变换器方法有所不同。此外,我们创新地混合来自各个编码器和解码器阶段的分层特征图,形成一个统一的键和值表示,从而产生我们独特的混合注意模块。大量实验证明,U-MixFormer 在各种配置上表现出色,并且在 ADE20K 上使用 MSCAN-T 编码器的 mIoU 比 SegFormer 和 FeedFormer 高出 3.3%。
Dec, 2023
本文提出了一种统一、简单、有效的模型 OneFormer3D,利用可学习的卷积核同时处理实例分割和语义分割,通过输入统一的实例和语义查询来训练,并在 ScanNet 测试排行榜中取得了第一名和新的最佳性能,同时在 ScanNet、ScanNet200 和 S3DIS 数据集上展示了最领先的语义、实例和全景分割结果。
Nov, 2023