语义分割的 Transformer 分割器
本文提出了一种新的语义分割方法,使用纯 Transformer 编码图像为序列的方式,通过全局上下文模型和一个简单的解码器生成强大的分割模型,称为 SETR,取得多项最新的测试结果。
Dec, 2020
通过使用超像素与现代 Transformer 框架相结合,本研究提出一种能在语义分割领域获得最先进性能的方法,通过学习将像素空间分解为低维超像素空间,并运用多头自注意力机制来丰富超像素特征以获得全局上下文信息,最终实现了更高的计算效率和模型性能。
Sep, 2023
本研究首次探索视觉变换器(ViT)的全局上下文学习潜力以实现密集视觉预测,编码图像作为一系列补丁并学习全局上下文,使 ViT 可以捕获更强的长距离依赖信息,提出的分割转换器(SETR)在 ADE20K 和 Pascal Context 数据集上取得了出色表现,同时提出了一系列分层本地 - 全局转换器,架构由局部关注(在窗口内)和全局关注(跨窗口)构成,对于各种密集预测任务具有吸引人的性能
Jul, 2022
本文综述了基于 transformer 的视觉分割技术,总结了近期的进展,详细介绍了各种方法设计和应用,并对该领域的未来研究方向进行了探讨。
Apr, 2023
我们提出了一种名为 Graph-Segmenter 的网络,其中包括 Graph Transformer 和 Boundary-aware Attention 模块,能够同时以全局和局部视角建模窗口之间更深入的关系以及窗口内各个像素的关系,且具有较低的边界调整成本,实现了最先进的分割性能。
Aug, 2023
提供一种新的架构 Mask2Former,该架构通过应用掩蔽注意力机制提取局部特征来解决多种类型的图像分割任务,包括全景分割、实体分割和语义分割,并且优于当前最佳的专门任务架构。
Dec, 2021
本文提出了 SeMask 框架,将语义信息嵌入预训练分层 Transformer 模块的编码器中以提高模型性能,并使用轻量级语义解码器进行训练。实验结果表明,嵌入语义先验可以显著提高模型效果,并且与 Swin Transformer 和 Mix Transformer 等模型相结合,达到了 58.25%的 mIoU 表现。
Dec, 2021
本文介绍了一种轻量级的语义分割架构,名为自适应频率变换器。它采用并行架构,使用原型表示作为可学习的局部描述来替代解码器,并在高分辨率特征上保留了丰富的图像语义。我们还使用异构运算符(CNN 和 Vision Transformer)进行像素嵌入和原型表示,以进一步节省计算成本。
Jan, 2023
最近基于 Transformer 的架构在图像分割领域取得了令人印象深刻的成果。为了填补传统架构在计算资源上的限制,本文提出了一种高效的基于原型的 Transformer 架构 (PEM),它利用视觉特征的冗余性来限制计算并提高效率,同时引入了高效的多尺度特征金字塔网络,能够高效地提取具有高语义内容的特征。在两个不同的数据集上对 PEM 架构进行了测试和评估,表现出色,优于特定任务的架构,并且与计算代价较高的基准模型相媲美甚至更优。
Feb, 2024
本文探讨用上下文汇聚策略解决语义分割问题,提出了一种基于特定物体上下文表示的简单而有效的方案,并采用变压器编码器 - 解码器框架进行方案实现。
Sep, 2019