ViG: 使用门控线性注意力进行线性复杂度的视觉序列学习

May, 2024

ViG: 使用门控线性注意力进行线性复杂度的视觉序列学习

ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention

Bencheng Liao, Xinggang Wang, Lianghui Zhu, Qian Zhang, Chang Huang

TL;DR在计算机视觉任务中，线性复杂度序列建模网络达到了与 Vision Transformers 相似的建模能力，同时使用更少的 FLOPs 和内存。然而，它们在实际运行时速度方面的优势并不显著。为了解决这个问题，我们引入了适用于视觉的门控线性注意力（GLA），利用它的硬件感知和高效性。我们提出了方向性门控，通过双向建模来捕捉一维全局上下文，并通过二维门控局部注入来自适应地将二维局部细节注入一维全局上下文。我们的硬件感知实现将正向扫描和反向扫描合并为单个核心，增强了并行性，减少了内存成本和延迟。所提出的模型 ViG 在 ImageNet 和下游任务中在准确性、参数和 FLOPs 上取得了有利的权衡，优于流行的 Transformer 和基于 CNN 的模型。值得注意的是，ViG-S 仅使用参数的 27% 和 FLOPs 的 20%，在 224x224 大小的图像上运行速度比 DeiT-B 快 2 倍。在 1024x1024 分辨率下，ViG-T 使用的 FLOPs 比 DeiT-T 少了 5.2 倍，节省了 90% 的 GPU 内存，运行速度快了 4.8 倍，并且相比 DeiT-T 的 top-1 准确率高出 20.7%。这些结果使 ViG 成为一种高效且可扩展的视觉表示学习解决方案。代码可在 https://github.com/hustvl/ViG 找到。

Abstract

Recently, linear complexity sequence modeling networks have achieved modeling capabilities similar to vision transformers on a variety of compute

linear complexity sequence modeling networks gated linear attention vig vision transformers computer vision

发现论文，激发创造

DiG: 基于门控线性注意力的可扩展高效扩散模型

本文基于 Gated Linear Attention Transformers 构建一个可用于扩展预训练扩散模型的简单、易于采用的解决方案，其在效率和效果上优于 Diffusion Transformers 模型。

May, 2024

硬件高效训练的门控线性注意力变换器

通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers 在适度规模的语言建模中表现竞争力，并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。

Dec, 2023

MobileViG：用于移动端视觉应用的基于图的稀疏注意力机制

本文提出了一种新颖的基于图的稀疏注意力机制 Sparse Vision Graph Attention（SVGA），并且设计了一种新的混合 CNN-GNN 体系结构 MobileViG，实验证明，MobileViG 在移动设备上进行图像分类、物体检测和实例分割任务上的精度和 / 或速度明显优于现有的 ViG 模型和现有移动 CNN 和 ViT 架构。

Jul, 2023

具有并行局部和全局自注意力的轻量级视觉变换器

我们将最新的 Vision Transformer PLG-ViT 重新设计为更紧凑和高效的架构，适合于计算资源有限的自动驾驶任务，通过减少参数数量和浮点运算来降低计算复杂性，并在性能适度下降的情况下将大小减小了 5 倍。

Jul, 2023

基于异质注意力模式的视觉 Transformer 加速

基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Oct, 2023

速览注视视觉变换器

提出一种效率更高的视觉 Transformer 模型，命名为 Glance-and-Gaze Transformer (GG-Transformer)，其通过两个并行的分支 ——Glance 和 Gaze，分别实现自适应扩张分区的自注意力机制与简单深度卷积层的局部图像上下文补偿，从而实现长距离依赖性和局部区域信息的高效建模，在多个视觉任务和基准测试中都表现出了优秀的性能。

Jun, 2021

MABViT - 改进的注意力模块增强视觉 Transformer

我们提出了一种新颖的变压器变体，在注意力块中集成了非线性处理，以解决在图像分类任务中并行运行 MLP 和注意力块导致性能下降的问题。我们的实验结果表明，基于 GLU 的激活函数超过了当前的 Vision Transformers 在 ImageNet-1K 数据集上的 S / 16 变体，同时使用更少的参数，且超过了 B / 16 变体使用仅一半的参数。此外，我们还展示了使用 GELU 激活函数变体来验证我们的断言。最后，我们证明了 MABViT 变体在深度变压器中的潜力超过了标准结构。

Dec, 2023

ViGAT: 基于分解图注意力网络的视频自底向上事件识别和解释

本文提出了一种纯自注意力自下而上的 ViGAT 方法，该方法将一个物体检测器和 Vision Transformer（ViT）骨架网络结合起来，以推导出视频中的物体和框架特征，然后通过一个头网络处理这些特征以完成事件识别和解释任务。

Jul, 2022

GLIMS：注重注意力的轻量级多尺度混合网络用于体积语义分割

GLIMS 是一种数据效率高、注意力引导的混合体积分割网络，利用了 Dilated Feature Aggregator Convolutional Blocks (DACB)，并结合了 Swin Transformer-based bottleneck，通过 Channel 和 Spatial-Wise Attention Blocks (CSAB) 实现了注意力引导分割方法，证明了其在复杂性和准确性方面的出色表现。

Apr, 2024

为移动视觉扩展图卷积

MobileViGv2 使用 Mobile Graph Convolution (MGC) 模块来解决模型尺寸扩展问题，通过增加图稀疏性和引入条件位置编码到图操作中，提高了在图像分类等任务中的准确性。

Jun, 2024