Segformer++: 高分辨率语义分割的高效令牌合并策略

May, 2024

Segformer++: 高分辨率语义分割的高效令牌合并策略

Segformer++: Efficient Token-Merging Strategies for High-Resolution Semantic Segmentation

Daniel Kienzle, Marco Kantonis, Robin Schön, Rainer Lienhart

TL;DR利用 Transformer 架构进行高分辨率图像的语义分割受到注意力计算复杂性的阻碍。本文通过令牌合并来减少令牌数量，这在图像分类任务的推理速度、训练效率和内存利用方面取得了显著改进。我们在多个语义分割和人体姿势估计数据集上探索了不同的令牌合并策略，并在 Cityscapes 数据集上实现了 61% 的推理加速，同时保持了 mIoU 性能。因此，本文有助于在资源受限设备和实时应用中部署基于 Transformer 的架构。

Abstract

Utilizing transformer architectures for semantic segmentation of high-resolution images is hindered by the attention's quadratic computational complexity in the number of tokens. A solution to this challenge invo

transformer architectures semantic segmentation token merging inference speed resource-constrained devices

发现论文，激发创造

基于标记合并的转换器和状态空间模型的高效时间序列处理

在时间序列分析中，我们首次探讨了令牌合并在时间序列变换器和状态空间模型中的应用，通过引入局部合并算法，我们能够在长序列上有效实现令牌合并，从而在多个模型和数据集上获得显著的计算效益而对准确性影响最小。

May, 2024

视觉 Transformer 中的标记合并学习

本文介绍了一种减少 Transformers 计算代价的方法 —— 使用 PatchMerger 模块将网络处理的补丁或令牌数量缩减，从而在不影响性能的情况下实现了显著的加速。

Feb, 2022

SegFormer：使用 Transformer 简单高效的语义分割设计

SegFormer 是一种简单、高效而强大的语义分割框架，它将 Transformers 和轻量级的多层感知机解码器统一在一起。我们展示了这种轻量简单设计对提高 Transformers 语义分割效率的关键所在，并为 SegFormer 构建了一系列模型，其中最好的模型 - SegFormer-B5，在 Cityscapes 验证集上达到了 84.0％的 mIoU，显示了出色的零 - shot 鲁棒性。

May, 2021

从序列到序列的角度重新思考使用 Transformers 进行语义分割

本文提出了一种新的语义分割方法，使用纯 Transformer 编码图像为序列的方式，通过全局上下文模型和一个简单的解码器生成强大的分割模型，称为 SETR，取得多项最新的测试结果。

Dec, 2020

基于线性变换的轻量级无头信息语义分割

本文介绍了一种轻量级的语义分割架构，名为自适应频率变换器。它采用并行架构，使用原型表示作为可学习的局部描述来替代解码器，并在高分辨率特征上保留了丰富的图像语义。我们还使用异构运算符（CNN 和 Vision Transformer）进行像素嵌入和原型表示，以进一步节省计算成本。

Jan, 2023

语义分割的 Transformer 分割器

本文提出了 Segmenter，一种用于语义分割的 Transformer 模型，利用一种点刀线性解码器或一个 mask transformer 解码器将图像分割为不同的类别，通过对模型参数的分析，表明 Segmenter 在 ADE20K 和 Pascal Context 数据集上具有良好的性能。

May, 2021

超点 Transformer 实现高效三维语义分割

本篇论文介绍一种新的基于超像素点的变压器架构，用于高效地语义分割大规模 3D 场景。

Jun, 2023

基于原型的高效 MaskFormer 图像分割方法

最近基于 Transformer 的架构在图像分割领域取得了令人印象深刻的成果。为了填补传统架构在计算资源上的限制，本文提出了一种高效的基于原型的 Transformer 架构 (PEM)，它利用视觉特征的冗余性来限制计算并提高效率，同时引入了高效的多尺度特征金字塔网络，能够高效地提取具有高语义内容的特征。在两个不同的数据集上对 PEM 架构进行了测试和评估，表现出色，优于特定任务的架构，并且与计算代价较高的基准模型相媲美甚至更优。

Feb, 2024

利用压缩与扩张变换的医学图像分割

研究使用 transformers 和 Squeeze-and-Expansion Transformer 实现医学影像分割，较传统方法显著提高了分割准确度和跨领域泛化性。

May, 2021

不是所有令牌都相等：通过令牌聚类变换器进行人类中心的视觉分析

本文介绍了一种名为 token clustering transformer 的新型视觉 transformer 模型，它可以有效处理不同区域的特征提取问题，在多种人体相关任务上表现出了不俗的性能。

Apr, 2022