我们提出了一种名为全局 - 局部滤波网络(GLFNet)的新型 Transformer 风格架构,用于医学图像分割,证明了其具有最先进的性能。我们用全局 - 局部滤波块取代了自注意机制,以优化模型效率。全局滤波器从整个特征图中提取特征,而局部滤波器以适应性方式作为相同特征图的 4x4 补丁生成并添加受限的尺度信息。特征提取发生在频率域而不是常用的空间(图像)域,以实现更快的计算。来自空间和频率空间的信息融合创建了一个在复杂性、所需数据和性能方面效率高的模型。我们在三个基准数据集上测试了 GLFNet,在所有数据集上都实现了最先进的性能,而在 GFLOP 操作方面几乎提高了一倍的效率。
Mar, 2024
本文提出了一个新的序列特征学习方法,Glance and Focus Network(GFNet),用于图像识别问题中的减少空间冗余和时间复杂度的优化,GFNet 采用类似人类视觉系统的粗到细的学习方式处理图像,并通过强化学习的方式定位图像中的显著区域,从而避免了手动标注的需求。实验表明,GFNet 能够大幅度降低 MobileNet-V3 在 iPhone XS Max 上的平均延迟 (1.3x),而精度没有任何损失。
Jan, 2022
本文介绍了全局特征金字塔网络(GFPNet),它是 PAFPN 的增强版本,通过整合全局信息增强目标检测,有效地关注层内特征信息,捕捉全局特征细节,促进层内特征交互,并生成更全面而有影响力的特征表示。与传统的特征金字塔相比,GFPN 在目标检测基线上持续展示性能改进。
Dec, 2023
本研究提出了多通路结构的 Transformer 模型,实现局部到全局的多粒度特征推理,相较于现有的分层设计模型,在增加了极小的计算量的同时,在图像分类和语义分割任务上取得了显著的提高。
Jul, 2021
本研究使用可扩展的图转换器(GT)框架来进行单个大规模图的表示学习,并提出了快速的采样技术和局部注意机制,以解决全局注意机制在大规模图上的计算复杂性问题。在三个大规模节点分类基准测试中,我们验证了 LargeGT 框架,并取得了 3 倍的加速和 16.8%的性能提升。
通过将传统的卷积定理应用于深度学习,本研究揭示了自适应频率滤波器可作为高效的全局令牌混合器,进而提出了适应性频率滤波(AFF)令牌混合器。实验证明,AFFNet 在广泛的视觉任务中实现了卓越的准确性和效率平衡。
Jul, 2023
利用 Gabor 滤波器和学习能力,结合视觉变换器模型,设计了一种有效的金字塔网络结构,称为 Focal Vision Transformers(FViTs),在各种视觉任务中展现出出色的性能。
Feb, 2024
用基于图滤波的自注意力机制 (GFSA) 在 Transformer 模型中解决了过度平滑问题,提高了在计算机视觉、自然语言处理、图形模式分类、语音识别和代码分类等各领域的性能。
本研究提出了 Global Spectral Filter Memory 网络以提高半监督视频对象分割的内框交互,并通过 Low(High)Frequency Module 有效地学习长期空间依赖性,显着优于基准方法并达到了最先进的表现。
Oct, 2022
本文介绍了一种基于图的 CNN 架构,采用节点变化的 GF 代替传统卷积,通过局部操作提取不同的本地特征,以解决在不规则域中信号处理的问题,并在综合实验中进行了测试。
Oct, 2017