Slide-Transformer: 具有局部自注意力的分层视觉变压器
本文提出了一种名为 query and attend(QnA)的新型 shift-invariant local attention 层,将其并入分层视觉 transformer 模型,并证明其在速度和内存复杂度方面的改善,同时又能实现与最先进的模型相当的准确度。
Dec, 2021
本研究提出了多通路结构的 Transformer 模型,实现局部到全局的多粒度特征推理,相较于现有的分层设计模型,在增加了极小的计算量的同时,在图像分类和语义分割任务上取得了显著的提高。
Jul, 2021
本文介绍了一种新颖的变形注意力模块,提出了 Deformable Attention Transformer,通过变形注意力实现了基于图像分类和密集预测任务的骨干模型,并在广泛的基准测试中取得了显著的改进。
Jan, 2022
本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer(ViT)架构,可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer(ViT)变体。
Jun, 2021
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
本文探讨了 Local Vision Transformer 的前身 ——Vision Transformer 和其一种局部注意力机制 —— 局部连接的形式,并从 network regularization 角度分析了其权重的稀疏性、共享性以及动态性。此外作者还针对这种局部连接进行的实验证明它的有效性,并提供了开源实现代码。
Jun, 2021
本研究提出了 Lite Vision Transformer(LVT),一种新型的轻量级 transformer 网络,其中包含两种增强自注意力机制,以提高模型在移动部署中的性能表现,并在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割中具有优越性能。
Dec, 2021
本文介绍了使用阶梯自注意力块和渐进式移位机制开发轻量级转换器骨干 (PSTL),具有较少的计算资源需求,用于各种视觉任务包括图像分类等,相对于现有的模型,PSTL 具有更少的参数和 FLOPs,但在 ImageNet-1k 数据集上却达到了 79.9%的准确率
Apr, 2023
本文提出了名为 Dual Vision Transformer (Dual-ViT) 的新型 Transformer 结构,在保持准确度的前提下,通过综合运用语义路径和像素路径,将全局语义压缩成更高效的先验信息,进而实现了减少计算复杂度的目的,并在实验中表现出比 SOTA Transformer 结构更高的准确度。
Jul, 2022