SparseFormer: 有限潜在令牌的稀疏视觉识别

Apr, 2023

SparseFormer: 有限潜在令牌的稀疏视觉识别

SparseFormer: Sparse Visual Recognition via Limited Latent Tokens

Ziteng Gao, Zhan Tong, Limin Wang, Mike Zheng Shou

TL;DR本文提出了一种命名为 SparseFormer 的新方法，以在端到端的方式中模仿人的稀疏视觉识别，其中 SparseFormer 使用稀疏特征抽样过程，在潜在空间中使用极少量的标记（降至 49），而不是在原始像素空间中处理密集单元，从而具有更低的计算成本。SparseFormer 在 ImageNet 分类基准数据集上的实验表明，它具有与规范或已建立模型相当的性能，同时提供更好的准确度 - 吞吐量权衡，并且设计我们的网络可以以更低的计算成本轻松扩展到视频分类。

Abstract

Human visual recognition is a sparse process, where only a few salient visual cues are attended to rather than traversing every detail uniformly. However, most current vision networks follow a dense paradigm, processing every single visual unit (e.g,, pixel or patch) in a uniform manne

sparseformer visual recognition sparse neural architectures image classification computational efficiency

发现论文，激发创造

从视觉基础模型起步的稀疏 Transformer

用于视觉理解的 SparseFormer 通过调整 RoIs 利用较少的视觉标记提供了一种替代方案，从而大大减少了计算成本并同时实现了有希望的性能。我们提出了一种简单高效的方法，通过从基于 ViT 的视觉基础模型中启动 SparseFormer，仅需训练 SparseFormer 特定的轻量级聚焦变换器，从而可以以较小数量的训练样本且不需要标签或标题，在几小时内构建具有不同大规模预训练模型的 SparseFormer 架构。这种方法可以在 IN-1K 上使用仅 49 个标记达到 84.9％的准确率，并且基于 CLIP 的多模态 SparseFormer 还能在具有大大降低的计算成本的情况下展示出显著的零样本性能，而尚未在启动过程中查看任何标题。此外，基于 CLIP 启动的 SparseFormers 可以将输出空间与语言对齐，成为多模态大型语言模型中高效的视觉编码器。

Dec, 2023

VoxFormer：基于摄像机的稀疏体素变换器用于三维语义场景完成

本论文提出了一种基于 Transformer 的场景语义补全框架 VoxFormer，可以从 2D 图像中输出完整的 3D 体素语义，并在测试中获得了相对 20% 的几何和 18.1% 的语义方面的提升。

Feb, 2023

SPFormer：使用超像素表示增强视觉 Transformer

SPFormer 是一种新颖的视觉变换器，增强了超像素表示，通过对图像内容进行自适应划分，有效捕捉了复杂的细节，并在各种基准测试中表现出优异性能。其独特的可解释性结构提供了对模型内部过程的洞察，显著提高了 SPFormer 的稳健性。

Jan, 2024

动态空间稀疏化：用于高效视觉 Transformer 和卷积神经网络的优化

本文提出了一种通过利用视觉数据中的空间稀疏性进行模型加速的新方法，该方法基于所提出的动态令牌稀疏化框架，并通过自适应和不对称计算等方式推广到各种体系结构中，通过对不重要的特征使用轻量级快速路径和对更重要位置使用更具表现力的慢速路径，可以显著减少总体计算量，实验结果表明动态空间稀疏化为模型加速提供了新的更有效的解决方案。

Jul, 2022

SparseOcc（稀疏隐含表示）：重新考虑基于视觉的语义占用预测

提出了 SparseOcc，一种受稀疏点云处理启发的高效占据网络，利用了无损稀疏潜在表示的三个关键创新。通过空间分解的 3D 稀疏卷积核执行潜在补全的 3D 稀疏扩散器；通过特征金字塔和稀疏插值从其他尺度获取信息；将 Transformer 头改造为稀疏变种。SparseOcc 在 FLOP 上实现了惊人的 74.9% 减少，同时在精确度上有所提高。

Apr, 2024

SigFormer: 稀疏信号引导变换器用于多模态人体动作分割

介绍了一种稀疏信号引导的变压器模型 (SigFormer)，该模型通过融合密集信号和稀疏信号来提高多模态人体动作分割的准确性，在处理稀疏信号时使用了蒙版注意力机制，同时在提取特征和建模动作类别与时间边界关系时强调了边界信息。在实验中，SigFormer 在真实工业环境下的多模态动作分割数据集上表现优秀，F1 得分达到 0.958。

Nov, 2023

稀疏 Spikformer：脉冲变换器的令牌和权重剪枝的协同设计框架

SparseSpikformer 是一种通过令牌和权重修剪技术实现稀疏性的共设计框架，可以显著减少模型参数 90％并减少 20％的 GFLOPs，同时保持原始模型的准确性。

Nov, 2023

稀疏建模在图像和视觉处理中的应用

本文介绍了关于稀疏模型及其应用的多学科研究，主要涉及模型选择、稀疏编码、图像识别和图像处理等领域。本文针对数据的学习和适应性字典，提供了一种自包含的稀疏建模方法，已在各种领域中获得成功应用。

Nov, 2014

MetaFormer 对于计算机视觉是必不可少的

通过取代 Transformers 中的注意力机制，使用空间 MLPs，从而验证了 Transformers 的总体架构（MetaFormer）对模型性能的贡献更为关键。提出了 MetaFormer 的概念，这是一个抽象出 Transformers 中 token mixer 以外的通用架构，并将提出的 PoolFormer 作为未来 MetaFormer 架构设计的起点基线模型。

Nov, 2021

HyperFormer: 通过超图 Transformer 学习表现力强的稀疏特征表示

本文从图学习的角度，利用 Hypergraph Transformer 模型，通过在构造的超图上传递信息，得出在高维稀疏数据的特征表征学习中的相关性，从而更好地解决相关性的问题。

May, 2023