May, 2024

Vim-F:从频域学习的受益视觉状态空间模型

TL;DR使用频率和空间域进行扫描的 Vim-F 模型通过在原有特征图上添加频谱信息,能够建模统一的视觉表示,充分利用 ViM 的高效长序列建模能力,并利用卷积干扰获取更多本地关联性,进一步提高性能。