CVPRJun, 2024

ALGM:适应性局部 - 全局令牌合并用于基于纯视觉变换的高效语义分割

TL;DR本研究介绍了一种自适应的局部 - 全局合并(ALGM)方法,用于在使用普通视觉变换器的语义分割网络中进行令牌减少。ALGM 在两个阶段中合并令牌:(1)在第一个网络层中,它通过一个小的局部窗口合并相似的令牌,(2)在网络的一半处,它合并整个图像中相似的令牌。通过对多个数据集和网络配置进行广泛实验,我们展示了 ALGM 不仅可以将吞吐量显著提高最多 100%,还可以将平均 IoU 提高最多 + 1.1,从而在分割质量和效率之间取得更好的折衷。此外,我们的方法在推断过程中是自适应的,这意味着同一模型可以根据应用程序的需要以最佳效率或准确性进行使用。代码可在此 https URL 找到。