本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉transformer(ViT)架构,可以在图像分类和目标检测等四个任务上优于目前最先进的视觉transformer(ViT)变体。
Jun, 2021
本文探讨了Local Vision Transformer的前身——Vision Transformer和其一种局部注意力机制——局部连接的形式,并从network regularization角度分析了其权重的稀疏性、共享性以及动态性。此外作者还针对这种局部连接进行的实验证明它的有效性,并提供了开源实现代码。
本文介绍了一种名为Focal Transformer的新型视觉Transformer模型,采用了一种称为focal self-attention的新机制,有效地解决上述算法在高分辨率视觉任务方面的困难之处,并在各项视觉任务的公共基准测试中创造了新的SoTA。
Jul, 2021
本研究提出了多通路结构的Transformer模型,实现局部到全局的多粒度特征推理,相较于现有的分层设计模型,在增加了极小的计算量的同时,在图像分类和语义分割任务上取得了显著的提高。
本文提出一种名为SSA的新型自注意力策略,能够使Vision Transformer模型在单个自注意力层上实现对多种尺度特征的建模,并得到了广泛验证和超越同类模型的结果。
Nov, 2021
本文提出了一种名为query and attend(QnA)的新型shift-invariant local attention层,将其并入分层视觉transformer模型,并证明其在速度和内存复杂度方面的改善,同时又能实现与最先进的模型相当的准确度。
Dec, 2021
该研究通过引入多轴关注模型和卷积等新元素,提出了一种高效且可扩展的注意力模型,即MaxViT。利用MaxViT作为骨干网络,在图像分类和物体检测等任务上都取得了领先的性能。同时,该模型还证明了其在图像生成方面的潜在优势。
Apr, 2022
本文提出Dual Attention Vision Transformers (DaViT)网络,该网络通过自我注意机制能够捕获全局信息,同时保持计算效率,并在图片分类任务上取得了最先进的表现。
本文提出一种新颖的本地自注意力模块Slide Attention,使用深度卷积和变形平移技术实现高效、灵活和通用的局部特征学习,适用于各种高级视觉Transformer模型,并在多项基准测试中实现了持续的性能改进。
Apr, 2023
本研究提出了一种新的混合视觉transformer模型(ACC-ViT),运用区域关注和稀疏关注相结合的方式,动态地集成了局部和全局信息,同时保留了分层结构,并在常见的视觉任务中表现出色。
Jun, 2024