CrossFormer: 基于跨尺度注意力实现多功能视觉 Transformer
本文提出了一种名为 Dual-Branch Transformer 的模型,通过使用不同尺寸的图像块来获得更强的图像特征,进而学习多尺度特征表示,并采用交叉关注的方法进行多尺度特征的融合,使得计算复杂度得到控制,并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。
Mar, 2021
提出一种基于 ScaleFormer 的新型骨干网络,其中包含针对各个尺度的内部转换器,以在每个尺度上提取局部 - 全局提示,并设计了空间感知的跨尺度变换器,以相互作用多个尺度的共识区域,从而突出跨度依赖性并解决复杂的尺度变化。
Jul, 2022
我们提出了一个简单的附加注意力模块,通过多阶段和跨尺度的相互作用,克服了 CNN 和 ViTs 在视觉任务中相互特征图之间的互动不足,从而显着提高了性能。
Aug, 2023
探索使用 Cross Attention 机制替代传统的 self-attention 机制在计算机视觉任务中实现 Transformer 的实用性,实验表明该机制在 ImageNet-1K、COCO 和 ADE20K 等任务上可以达到先进水平,并且降低了计算量。
Jun, 2021
介绍了 Cross-Axis Transformer (CAT) 模型,该模型通过减少浮点运算数量,在图像处理中比 Vision Transformers 更快、更准确地收敛,从而解决了 Vision Transformers 在计算效率和处理空间维度方面的弱点。
Nov, 2023
本文提出了一种新的 Vision Transformer (ViT) 结构 Multi-Scale Vision Longformer,可以提高处理高分辨率图像的能力,主要通过多尺度模型结构和视觉 Longformer 的注意机制来实现,经过全面的实验表明在多项计算机视觉任务中,新的 ViT 模型比现有的 ViT 模型和基于 ResNet 的模型及其他竞争模型的性能都更好。
Mar, 2021
本文提出了一种名为 Cross-View Transformers 的注意力机制模型,能够在不需要显式几何建模的情况下,从多个相机的视角中学习到语义分割的图像表示,并进行了实时性能验证。
May, 2022
通过 Hierarchical Mutual Enhancement via Cross-Attention transformer (ECAFormer) 使用 Dual Multi-head Self Attention (DMSA) 提高细节保留,实现低光图像增强,优化计算复杂性和参数数量,提高了照明增强和降噪性能。
Jun, 2024
本研究提出了一种基于跨尺度分层 Transformer 和对应增强注意力的语义分割训练方法,针对使用多相机视图图像进行 Bird's-eye-view(BEV)语义分割的问题,并在大量实验中证明了其性能优越性。
Apr, 2023
本论文介绍了一个名为空间跨尺度卷积(SCSC)的模块,通过验证其在改善 CNN 和 Transformers 方面的有效性。SCSC 引入了一种高效的空间跨尺度编码器和空间嵌入模块,以在一个层次中捕捉各种特征。通过在人脸识别任务中使用 SCSC 的 FaceResNet,在 68% 的 FLOPs 和 79% 的参数减少情况下,提高了 2.7% 的性能;在 ImageNet 分类任务中,使用 SCSC 的 Swin Transformer 在 22% 的 FLOPs 减少情况下实现了更好的性能,并且使用 SCSC 嵌入的传统网络(如 ResNet)可以与 Swin Transformer 的性能匹敌。
Aug, 2023