即插即用：增强微小视觉变形金刚的通道混洗模块

Oct, 2023

即插即用：增强微小视觉变形金刚的通道混洗模块

Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision Transformers

Xuwei Xu, Sen Wang, Yudong Chen, Jiajun Liu

TL;DR通过引入一个新颖的通道混洗模块，我们提出了一种改进小型 Vision Transformers 的方法，展示了纯自注意力模型在计算资源受限环境中的潜力。

Abstract

vision transformers (ViTs) have demonstrated remarkable performance in various computer vision tasks. However, the high computational complexity hinders ViTs' applicability on devices with limited memory and comp

vision transformers computational complexity self-attention mechanism channel shuffle module tiny vits

发现论文，激发创造

视觉 Transformer 的每个阶段只需要更少的注意力

Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.

Jun, 2024

SHViT：带有内存高效宏设计的单头视觉 Transformer

通过引入单头注意力模块并利用减少空间冗余的令牌表示，本文提出了一种内在地防止头部冗余并同时通过并行结合全局和局部信息提高精度的单头视觉变换器（SHViT），在速度和准确度之间达到了最先进的权衡。

Jan, 2024

通道视觉变换器：一幅图像值 C x 16 x 16 个词

本文介绍了一种名为 ChannelViT 的模型，通过引入 Hierarchical Channel Sampling 技术对 ViT 进行改进，以增强其在多通道图像领域中的应用能力，并证明了其在分类任务上的性能优于 ViT，即使在测试期间只使用部分输入通道，ChannelViT 仍能良好地推广。同时，通过实验证明，Hierarchical Channel Sampling 作为一种简单直接的技术，可以作为 ViT 训练的有效正则化器，使得 ChannelViT 能够在稀疏传感器条件下，在有限访问所有通道的情况下有效推广，突出了其在稀疏数据情况下的潜力。

Sep, 2023

LightViT: 轻量化无卷积视觉 Transformer

本研究提出了一种名为 LightViT 的轻量化 transformer 网络，通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息，从而实现更好的准确性和效率平衡。实验证明，该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。

Jul, 2022

当位移操作遇上视觉 Transformer：一种极其简单的替代注意力机制的方法

本研究研究了注意力机制在视觉 Transformer 中的作用，将其简化为一个名为 ShiftViT 的零参数操作，发现它在分类、检测和分割等任务中表现良好，并且性能与强基线 Swin Transformer 相当甚至更好。

Jan, 2022

DeepViT: 朝更深层次的 Vision Transformer 进发

本文发现 Vision transformers 模型存在 attention collapse issue 现象，即 transformer 模型越深层次的注意力权重变得越相似，严重影响模型性能，提出了一种名为 Re-attention 的有效方法来解决该问题，使得 32 层的 Vision transformers 模型在 ImageNet 数据集的 Top-1 分类准确率上提高了 1.6%。

Mar, 2021

SA-Net: 深度卷积神经网络的 Shuffle Attention

该论文提出了一种名为 Shuffle Attention（SA）的机制，通过使用 Shuffle Unit 来同时描述空间和通道维度中的特征依赖关系，以有效地结合两种注意力机制。实验结果表明，该机制比当前 SOTA 方法具有更高的准确性，同时具有更低的模型复杂度。

Jan, 2021

Slide-Transformer: 具有局部自注意力的分层视觉变压器

本文提出一种新颖的本地自注意力模块 Slide Attention，使用深度卷积和变形平移技术实现高效、灵活和通用的局部特征学习，适用于各种高级视觉 Transformer 模型，并在多项基准测试中实现了持续的性能改进。

Apr, 2023

高效 ViT: 带级联分组注意力的内存高效视觉 Transformer

本研究提出一种高速的视觉 Transformer 模型 EfficientViT，通过优化 Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法，提高其内存利用率，加快模型速度，并在速度和准确性之间取得良好的平衡。

May, 2023

Shuffle Transformer：重新考虑视觉 Transformer 的空间混洗

本研究提出了一种名为 Shuffle Transformer 的新型视觉 Transformer 架构，通过使用空间 Shuffle 策略构建窗口之间的连接，使其在分类、检测和分割等视觉任务中获得卓越表现。

Jun, 2021