可逆视觉Transformer

Feb, 2023

Reversible Vision Transformers

Karttikeya Mangalam, Haoqi Fan, Yanghao Li, Chao-Yuan Wu, Bo Xiong...

TL;DR本文介绍一种内存高效的Reversible Vision Transformer架构设计，将模型深度与GPU内存需求解耦，能够通过有效地内存使用扩展架构。在图像分类、物体检测和视频分类等多个任务中进行了广泛基准测试，表明可实现模型复杂度、参数和准确性基本相同的情况下，内存占用减少了多达15.5倍，Reversible Vision Transformers是硬件资源有限培训方案的高效支撑，为更深的模型提供了更快的吞吐量。

Abstract

We present reversible vision transformers, a memory efficient architecture design for visual recognition. By decoupling the GPU memory requirement from the depth of the model, →

发现论文，激发创造

ViTAS: 视觉Transformer架构搜索

本文提出了 ViTAS 方法，其中使用循环权重共享机制和身份移位来解决目标嵌入的失衡问题，并辅以弱数据增强和规范化技术，以获得稳定的训练结果。实验证明，与其他常用方法相比，ViTAS 取得了极高的性能提升。

Jun, 2021

AdaViT: 自适应视觉Transformer用于高效图像识别

本文提出了AdaViT，一个自适应的计算框架，旨在提高视觉变换器的推理效率，而只有0.8％的准确率下降，并在不同的计算预算条件下实现了良好的效率/准确性平衡。

Nov, 2021

使用可学习记忆调优图像Transformer

该研究提出使用可学习的记忆令牌来增强视觉Transformer模型，使其适应新任务，使用较少的参数，同时保留先前学习任务的能力。我们引入一组可学习的嵌入向量，即“记忆令牌”，提供对特定数据集有用的上下文信息。该模型的准确性，通过每层只增加少量记忆令牌来显着改善，表现仅略低于显著更昂贵的完全微调。我们还提出了一个注意力掩模方法，使其能够扩展到新的下游任务，模型可在小的增量成本下同时执行旧任务和新任务。

Mar, 2022

高效ViT: 带级联分组注意力的内存高效视觉Transformer

本研究提出一种高速的视觉Transformer模型EfficientViT，通过优化Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法，提高其内存利用率，加快模型速度，并在速度和准确性之间取得良好的平衡。

May, 2023

选择哪种Transformer：视觉Transformer效率的比较分析

对视觉Transformer及相关架构的效率进行了综合分析，揭示了一系列有趣的见解，例如发现ViT在多个效率度量标准上仍然是最佳选择，同时低推理内存和参数数量时，混合注意力-CNN模型表现良好，模型大小的缩放比图像大小更为重要，FLOPS与训练内存之间存在强正相关性。

Aug, 2023

TurboViT：通过生成式架构搜索生成快速视觉Transformer

通过生成式架构搜索，通过掩蔽单元注意力和Q池设计模式创建高效分层视觉Transformer体系结构设计TurboViT，相较于其他10种同等准确度的最新高效视觉Transformer网络架构设计，在ImageNet-1K数据集上实现了显著较小的计算复杂性和更高的计算效率。同时在实时和批处理场景下表现出强大的推理延迟和吞吐量。

Aug, 2023

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使Vision Transformer高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023

记忆高效的视觉变换器：一种激活感知的混合秩压缩策略

本文提出了一种基于激活感知的模型压缩方法，通过使用不同层的低秩张量逼近来减少Vision Transformers（ViTs）的参数数量，克服了内存限制，实现在内存受限环境中嵌入ViTs而不影响其性能。

Feb, 2024

LowFormer：高效的卷积变压器骨干网设计

本研究旨在解决现有视觉骨干网在速度与准确性之间的权衡问题，通过分析硬件效率而非单纯依赖于MACs来评估模型性能。从宏观与微观设计入手，我们提出了一种新的硬件高效骨干网架构LowFormer，该架构在推理速度与延迟方面均表现出色，同时保持了与当前最优高效骨干网相当或更好的准确性。

Sep, 2024

用于高效视觉识别的big.LITTLE视觉变换器

本文提出了一种新的架构——big.LITTLE视觉变换器，旨在解决高效视觉识别的问题。该研究通过动态推理机制，使关键token由高性能模块处理，而低价值token则由高效模块处理，从而显著降低计算负荷，同时保持模型的整体性能。实验结果表明，该架构在大规模视觉识别任务中实现了高准确性和显著的计算节省，展示了混合模型在优化计算与性能方面的潜力。

Oct, 2024