聚焦调制网络
本文提出了基于方向聚焦的架构 Video-FocalNet,它是一种有效且高效的视频识别体系结构,用于同时对本地和全局上下文进行建模,相较于现今热门的视频识别模型,该识别模型在三大数据集上表现优异,具有更低的计算成本。
Jul, 2023
本文介绍了一种名为 Focal Transformer 的新型视觉 Transformer 模型,采用了一种称为 focal self-attention 的新机制,有效地解决上述算法在高分辨率视觉任务方面的困难之处,并在各项视觉任务的公共基准测试中创造了新的 SoTA。
Jul, 2021
通过对图像的频谱特性的研究,我们提出了一个高度降低计算复杂度的自注意机制。通过在不同频段上的个性化处理,可以更好地保留边缘,并在对象内提高相似性。我们设计并嵌入新的插入式模块到 CNN 网络的头部,称为 FsaNet。通过低频自注意力的应用,相对于全频,我们显示可以实现非常接近或更好的性能。相比其他基于 ResNet101 的自注意网络,FsaNet 在 Cityscape 测试数据集上取得了新的最优结果(83.0%mIoU),在 ADE20k 和 VOCaug 上取得了竞争性的结果。
Nov, 2022
本文提出了一种新的 Vision Transformer,Scale-Aware Modulation Transformer(SMT),通过结合卷积网络和视觉 Transformer,可以有效地处理多种下游任务;该模型提出了多头混合卷积模块(MHMC)和尺度感知聚合模块(SAA),并设计了 Evolutionary Hybrid Network(EHN)来提高泛化性。实验表明,SMT 在多种视觉任务中取得了优异的性能,特别是在物体检测方面,表现优于 Swin Transformer.
Jul, 2023
通过使用最近提出的无注意力聚焦调制网络(FocalNets),这篇论文在音频领域首次将 FocalNets 应用于环境声音分类任务,评估了其可解释性在流行的 ESC-50 数据集上的性能。与类似规模的视觉变换器相比,我们的方法在准确性和可解释性方面更加出色,并且在音频领域中针对事后解释的方法 PIQ 具有竞争力。
Feb, 2024
我们提出了一种新颖的技术,使用由单独的卷积自编码器生成的特征图在卷积神经网络中加入了注意力结构体系。我们在皮肤癌分割和肺部病变分割的基准数据集上评估了模型,并与 U-Net 及其残差变体进行对比,结果表明性能颇具竞争力。
Feb, 2019
卷积神经网络是建模视觉皮质神经元转移函数的最先进方法。这篇论文发现,与参数匹配的标准卷积神经网络相比,非局部网络或自注意机制在整体调谐曲线相关性和调谐峰值这两个关键度量上可以提高神经响应预测,并且可通过分解网络确定每个上下文机制的相对贡献,揭示了局部感受野中的信息对于模拟整体调谐曲线最为重要,而周围信息对于表征调谐峰值至关重要;并且在学习过程中自注意力可以取代后续的空间整合卷积,与全连接输出层相结合,两种上下文机制相辅相成;最后,学习以接受感受野为中心的自注意模型,在逐步学习全连接输出之前,能够提供更具生物学现实性的中心 - 周围贡献的模型。
Jun, 2024
本文提出了一种新颖的挤压和注意力(SA)模块,结合传统卷积实现像素组关注和像素级预测,最终通过融合四个层次的 SANet 的输出来集成多尺度的上下文信息,从而实现了在 PASCAL VOC 和 PASCAL 上的语义分割任务中表现出色。
Sep, 2019
本文通过应用双重注意力网络 (DANet) 和自注意力机制来捕捉语境相关性,以实现更准确的场景分割,在 Cityscapes 数据集上取得了 81.5% 的平均 IoU 得分,并提供了相应的代码和训练模型。
Sep, 2018
提出了一种新的模型,称为 AttaNet,用于在保持高效的同时捕获全局上下文和多级语义,通过 Strip Attention 模块和 Attention Fusion 模块实现低复杂度计算和加权特征融合技术,并在两个语义分割基准测试中进行了广泛的实验,取得了不同水平的速度 / 精度平衡和领先的表现。
Mar, 2021