具有增强自注意力的轻量级视觉 Transformer

Dec, 2021

具有增强自注意力的轻量级视觉 Transformer

Lite Vision Transformer with Enhanced Self-Attention

Chenglin Yang, Yilin Wang, Jianming Zhang, He Zhang, Zijun Wei...

TL;DR本研究提出了 Lite Vision Transformer（LVT），一种新型的轻量级 transformer 网络，其中包含两种增强自注意力机制，以提高模型在移动部署中的性能表现，并在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割中具有优越性能。

Abstract

Despite the impressive representation capacity of vision transformer models, current light-weight vision transformer models still suffer from inconsistent and incorrect dense predictions at local regions. We suspect that the power of their self-attention mechanism is limited in shallower and thinner networks. We propose →

lite vision transformer convolutional self-attention recursive atrous self-attention imagenet recognition coco panoptic segmentation

发现论文，激发创造

PSLT: 一种轻量级视觉变换器，具有阶梯自注意力和渐进移位

本文介绍了使用阶梯自注意力块和渐进式移位机制开发轻量级转换器骨干 (PSTL)，具有较少的计算资源需求，用于各种视觉任务包括图像分类等，相对于现有的模型，PSTL 具有更少的参数和 FLOPs，但在 ImageNet-1k 数据集上却达到了 79.9％的准确率

Apr, 2023

视觉 Transformer 的每个阶段只需要更少的注意力

Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.

Jun, 2024

基于 Vision Transformers 的轻量级 CNN 竞争移动设备

通过引入高度成本效益的局部全局局部（LGL）信息交换瓶颈，结合最优的自注意力和卷积，我们引入了 EdgeViTs，这是一种新的轻便 ViTs 家族，它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争，并优于其他 ViTs 几乎在所有情况下，证实了模型是帕累托最优的。

May, 2022

高分辨率遥感图像变化检测的轻量级结构感知 Transformer 网络

为了解决 Transformer 网络在遥感图片变化检测中可能存在的问题，本文提出了一种轻量级结构感知 Transformer（LSAT）网络，有效地提高了 RS 图片 CD 的特征表达能力，并在各种 VHR RS 图片 CD 方法中实现了更好的检测精度和计算成本平衡。

Jun, 2023

低分辨率自注意力用于语义分割

本文介绍了一种使用低分辨率自注意力机制的视觉 Transformer 模型，以较低的计算成本捕捉全局上下文，并在 ADE20K、COCO-Stuff 和 Cityscapes 数据集上表现出优于现有模型的性能。

Oct, 2023

RegionViT: 基于区域到局部的视觉转换器注意力机制

本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer（ViT）架构，可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer（ViT）变体。

Jun, 2021

稀疏扫描先验的视觉转换器

利用人眼的稀疏扫描机制，通过引入稀疏扫描自注意机制（S^3A）和稀疏扫描视觉 Transformer（SSViT），有效降低计算负荷，达到在计算机视觉任务中出色的性能表现。

May, 2024

少即是多：在视觉 Transformer 网络中降低注意力

我们提出了一种基于层次结构以及多层感知器与自注意力模块相结合的 Less attention vIsion Transformer（LIT）来提高特征提取效率，并通过学习可变形 Token 合并模块自适应的融合不均匀的信息块，以达到在图像分类、物体检测和实例分割等图像识别任务中具有很好的性能。

May, 2021

LightViT: 轻量化无卷积视觉 Transformer

本研究提出了一种名为 LightViT 的轻量化 transformer 网络，通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息，从而实现更好的准确性和效率平衡。实验证明，该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。

Jul, 2022

无 Softmax 的线性变换器

提出 SOftmax-Free Transformer (SOFT)，其采用高斯核函数替代点积相似度，从而能够通过低秩矩阵分解逼近完整的自注意力矩阵，该模型能够明显提高现有 ViT 变体的计算效率，同时具有线性复杂度，且能够容纳更长的令牌序列，优化了准确率和复杂度之间的权衡。

Jul, 2022