May, 2024

Segformer++: 高分辨率语义分割的高效令牌合并策略

TL;DR利用 Transformer 架构进行高分辨率图像的语义分割受到注意力计算复杂性的阻碍。本文通过令牌合并来减少令牌数量,这在图像分类任务的推理速度、训练效率和内存利用方面取得了显著改进。我们在多个语义分割和人体姿势估计数据集上探索了不同的令牌合并策略,并在 Cityscapes 数据集上实现了 61% 的推理加速,同时保持了 mIoU 性能。因此,本文有助于在资源受限设备和实时应用中部署基于 Transformer 的架构。