从视觉基础模型起步的稀疏 Transformer

Dec, 2023

从视觉基础模型起步的稀疏 Transformer

Bootstrapping SparseFormers from Vision Foundation Models

Ziteng Gao, Zhan Tong, Kevin Qinghong Lin, Joya Chen, Mike Zheng Shou

TL;DR用于视觉理解的 SparseFormer 通过调整 RoIs 利用较少的视觉标记提供了一种替代方案，从而大大减少了计算成本并同时实现了有希望的性能。我们提出了一种简单高效的方法，通过从基于 ViT 的视觉基础模型中启动 SparseFormer，仅需训练 SparseFormer 特定的轻量级聚焦变换器，从而可以以较小数量的训练样本且不需要标签或标题，在几小时内构建具有不同大规模预训练模型的 SparseFormer 架构。这种方法可以在 IN-1K 上使用仅 49 个标记达到 84.9％的准确率，并且基于 CLIP 的多模态 SparseFormer 还能在具有大大降低的计算成本的情况下展示出显著的零样本性能，而尚未在启动过程中查看任何标题。此外，基于 CLIP 启动的 SparseFormers 可以将输出空间与语言对齐，成为多模态大型语言模型中高效的视觉编码器。

Abstract

The recently proposed sparseformer architecture provides an alternative approach to visual understanding by utilizing a significantly lower number of visual tokens via adjusting rois, greatly reducing computation

sparseformer rois vit-based vision transformers bootstrapping

发现论文，激发创造

SparseFormer: 有限潜在令牌的稀疏视觉识别

本文提出了一种命名为 SparseFormer 的新方法，以在端到端的方式中模仿人的稀疏视觉识别，其中 SparseFormer 使用稀疏特征抽样过程，在潜在空间中使用极少量的标记（降至 49），而不是在原始像素空间中处理密集单元，从而具有更低的计算成本。SparseFormer 在 ImageNet 分类基准数据集上的实验表明，它具有与规范或已建立模型相当的性能，同时提供更好的准确度 - 吞吐量权衡，并且设计我们的网络可以以更低的计算成本轻松扩展到视频分类。

Apr, 2023

在视觉 Transformer 中追求稀疏性：一次端到端的探索

本文旨在从减小训练存储开销和推理复杂度的角度，提出一种先将 Vision transformers 稀疏化，然后再训练的方法，从而实现一定的加速效果并保持较高的精度。

Jun, 2021

稀疏剪枝：朝着高效的视觉 Transformer

通过应用稀疏正则化和修剪方法于视觉转换器架构，研究了性能和效率之间的权衡，并发现正则化模型修剪相较于非正则化模型修剪可提高精度。

Jul, 2023

一种用于 Vision Transformer 的快速无需训练的压缩框架

提出优化 Transformer 模型 (ViT) 部署过程中训练代价高的问题的快速无需训练压缩框架，其中包括初层的稠密特征提取器、压缩率更高的模型和利用空间关系的局部 - 全局令牌合并方法，在多个模型上实现了至多 2 倍的 FLOPS 减少和 1.8 倍的推理吞吐量提升，训练时间比现有方法节省两个数量级。

Mar, 2023

DynamicViT：动态 Token 稀疏化的高效视觉 Transformers

提出了一种动态的、基于输入的 Token 稀疏化框架，通过阈值删除多余的信息元素，并通过自注意力网络的特性，使其仍然具有硬件友好性。在保证精度的同时，相比现有 CNN 和 Transformer 模型，通过分层删减 66% 的输入元素，可以大大减少 FLOPs、提高吞吐量。

Jun, 2021

从标记稀疏化视角提高视觉 Transformer 的效率

本文介绍了一种基于语义标记的 ViT 模型，可以用于图像分类以及物体检测和实例分割等任务，并通过对空间中的池化图像标记进行 attention 的方法，来取代大量的图像标记，从而实现了网络的降维升效。

Mar, 2023

AutoFormer: 为视觉识别搜索 Transformer

本文提出了一种名为 AutoFormer 的新一代架构搜索框架，该框架是针对视觉分类和检测任务中 transformer 网络设计的，通过优化 supernet 让数千个子网络获得很好的训练，最终得到的 AutoFormers 模型在 ImageNet 数据集上取得了比 ViT 和 DeiT 更高的性能，且具有良好的迁移性能和蒸馏实验性能。

Jul, 2021

本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络，其将自注意力操作限制在空间上邻近的一组 Token 上，并通过轻量级的连接性预测器模块评估 Token 之间的连接得分来解决由结构化注意力模式引起的语义信息丧失问题，可以在保证准确率下显著减少计算量，达到更优的精度－计算复杂度平衡点，进一步结合 Token 稀疏机制，该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。

Mar, 2023

通过架构采样器专注于我们需要的内容

Vision Transformers 是目前计算机视觉领域的重要技术，这篇论文提出了一种名为 FocusFormer 的方法，它通过学习一个架构采样器，在不同资源约束条件下分配更高的采样概率，从而提高架构的性能，并显著降低搜索成本。

Aug, 2022

UniFormerV2：将图像 ViTs 赋能视频的时空学习

本文提出了一种用于构建视频网络家族的通用范例，通过将预训练的 Vision Transformers 与高效的 UniFormer 设计相结合，实现了理想的准确性与计算平衡，并在 8 个常见的视频基准测试中取得了最先进的识别性能。

Nov, 2022