Mar, 2023

基于 FFT 的视觉动态令牌混合器

TL;DR提出了一种新的动态滤波器 Token-mixer,与 MHSA 类似,但计算复杂度较低,并在图像识别中达到了与卷积和 MHSA 混合架构相近的精度水平,对于处理高分辨率图像的吞吐量和内存效率优于 CAFormer。