Sep, 2023

动态频谱混合器用于视觉识别

TL;DR提出了一种自适应结构,名为动态谱混合器(DSM),该结构通过使用离散余弦变换在频域表示标记间的相互作用,能够以对数线性复杂度学习长期空间依赖性,并通过动态频谱权重生成层实现信息频段的突出,从而高效地学习包含高低频信息的视觉输入的详细特征。全面的实验证明,DSM 是一种功能强大且适应性强的骨干网络,适用于各种视觉识别任务。