May, 2024
Vim-F:从频域学习的受益视觉状态空间模型
Vim-F: Visual State Space Model Benefiting from Learning in the Frequency Domain
Juntao Zhang, Kun Bian, Peng Cheng, Wenbo An, Jianning Liu...
TL;DR使用频率和空间域进行扫描的 Vim-F 模型通过在原有特征图上添加频谱信息,能够建模统一的视觉表示,充分利用 ViM 的高效长序列建模能力,并利用卷积干扰获取更多本地关联性,进一步提高性能。