Aug, 2023

动态令牌传递变换器用于语义分割

TL;DR通过引入动态令牌过渡视觉转换器(DoViT)对图像进行语义分割,适应性地降低了不同复杂度图像的推理成本,通过逐渐停止部分易处理的令牌的自注意计算并保持难处理的令牌继续前进直到满足停止标准,利用轻量级辅助头部做出令牌传递决策并将令牌划分为保留 / 停止部分,通过令牌的分离计算,使用稀疏令牌加速自注意层,并在硬件上保持友好性,构建令牌重建模块以收集和重置分组令牌到序列中的原始位置,这对于预测正确的语义掩码是必要的,我们在两个常见的语义分割任务上进行了大量实验证明我们的方法在各种分割转换中大大减少了 40%〜60%的 FLOPs,mIoU 的降低在 0.8%以内,并且 Cityscapes 上的 ViT-L/B 的吞吐量和推理速度增加了 2 倍以上。