具有增强自注意力的轻量级视觉 Transformer
本文介绍了使用阶梯自注意力块和渐进式移位机制开发轻量级转换器骨干 (PSTL),具有较少的计算资源需求,用于各种视觉任务包括图像分类等,相对于现有的模型,PSTL 具有更少的参数和 FLOPs,但在 ImageNet-1k 数据集上却达到了 79.9%的准确率
Apr, 2023
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
通过引入高度成本效益的局部全局局部(LGL)信息交换瓶颈,结合最优的自注意力和卷积,我们引入了 EdgeViTs,这是一种新的轻便 ViTs 家族,它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争,并优于其他 ViTs 几乎在所有情况下,证实了模型是帕累托最优的。
May, 2022
为了解决 Transformer 网络在遥感图片变化检测中可能存在的问题,本文提出了一种轻量级结构感知 Transformer(LSAT)网络,有效地提高了 RS 图片 CD 的特征表达能力,并在各种 VHR RS 图片 CD 方法中实现了更好的检测精度和计算成本平衡。
Jun, 2023
本文介绍了一种使用低分辨率自注意力机制的视觉 Transformer 模型,以较低的计算成本捕捉全局上下文,并在 ADE20K、COCO-Stuff 和 Cityscapes 数据集上表现出优于现有模型的性能。
Oct, 2023
本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer(ViT)架构,可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer(ViT)变体。
Jun, 2021
利用人眼的稀疏扫描机制,通过引入稀疏扫描自注意机制(S^3A)和稀疏扫描视觉 Transformer(SSViT),有效降低计算负荷,达到在计算机视觉任务中出色的性能表现。
May, 2024
我们提出了一种基于层次结构以及多层感知器与自注意力模块相结合的 Less attention vIsion Transformer(LIT)来提高特征提取效率,并通过学习可变形 Token 合并模块自适应的融合不均匀的信息块,以达到在图像分类、物体检测和实例分割等图像识别任务中具有很好的性能。
May, 2021
本研究提出了一种名为 LightViT 的轻量化 transformer 网络,通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息,从而实现更好的准确性和效率平衡。实验证明,该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。
Jul, 2022
提出 SOftmax-Free Transformer (SOFT),其采用高斯核函数替代点积相似度,从而能够通过低秩矩阵分解逼近完整的自注意力矩阵,该模型能够明显提高现有 ViT 变体的计算效率,同时具有线性复杂度,且能够容纳更长的令牌序列,优化了准确率和复杂度之间的权衡。
Jul, 2022