基于 FFT 的视觉动态令牌混合器
通过将传统的卷积定理应用于深度学习,本研究揭示了自适应频率滤波器可作为高效的全局令牌混合器,进而提出了适应性频率滤波(AFF)令牌混合器。实验证明,AFFNet 在广泛的视觉任务中实现了卓越的准确性和效率平衡。
Jul, 2023
本文提出了一种动态多级注意力机制 (DMA),它通过多个卷积核大小捕捉输入图像的不同模式,并通过门控机制实现输入自适应权重,然后提出了一种名为 DMFormer 的有效骨干网络,该网络采用了 DMA 替代了视觉变换器中的自我关注机制。在 ImageNet-1K 和 ADE20K 数据集上的广泛实验结果表明,DMFormer 具有先进的性能,优于大小相似的视觉变压器 (ViTs) 和卷积神经网络 (CNNs)。
Sep, 2022
Dynamic Mobile-Former 是一种集成了轻量级注意力机制和增强动态卷积优势的网络模型,通过 Transformer 和 MobileNet 的双向集成实现对全局和局部特征的处理,在图像分类、目标检测和实例分割等各个视觉任务上取得了高效且卓越的性能。
Apr, 2023
提出了一种自适应结构,名为动态谱混合器(DSM),该结构通过使用离散余弦变换在频域表示标记间的相互作用,能够以对数线性复杂度学习长期空间依赖性,并通过动态频谱权重生成层实现信息频段的突出,从而高效地学习包含高低频信息的视觉输入的详细特征。全面的实验证明,DSM 是一种功能强大且适应性强的骨干网络,适用于各种视觉识别任务。
Sep, 2023
通过将自注意力转换为采用大型卷积和 GELU 激活函数的更类似于 Feed-Forward Network 的有效令牌混合器,作者尝试验证了查询 - 键 - 值框架的重要性,并提出了一种新的混合器体系结构 MetaMixer,在仅使用简单操作(如卷积和 GELU)的情况下取得了卓越的性能改进。
Jun, 2024
WaveMix 是一种采用多尺度 2D 离散小波变换 (DWT) 进行空间令牌混合的替代神经架构,与卷积神经网络 (CNNs) 和 ViTs 相比,在多个数据集上表现出了与它们相当甚至更好的泛化性同时需要更少的计算和存储
Mar, 2022
本文提出了一种名为 attention map hallucination 和 FFN compaction 的技术,可以帮助减少 Vision Transformer 里的重叠和获得更好的性能。
Jun, 2023
本文提出了一个称为 Dyn Mixer 的高效 MLP-like 深度学习网络结构,用于动态信息融合,并且通过一个过程生成融合矩阵,以应对 tokens 的内容,并通过采用降维技术和多段融合机制来减少时间复杂度和提高鲁棒性。Dyn Mixer 模型不需要额外的训练数据,在 ImageNet-1K 数据集上达到了 84.3%的准确率,参数数量减少到 26M 时,仍然获得 82.7%的 top-1 准确率,胜过类似容量的现有 MLP-like 模型。
Jan, 2022
介绍一种名为 AFNO 的比自我注意力机制更有效的方法,它可处理高分辨率图片。它基于操作学习的原理,将令牌混合表示为一种连续的全局卷积,具有线性内存和近似线性时间复杂度,适用于 few-shot 分割任务,优于其他效率更高的自我注意力机制。
Nov, 2021