HaltingVT: 适用于高效视频识别的自适应停止令牌变换器

Jan, 2024

HaltingVT: 适用于高效视频识别的自适应停止令牌变换器

HaltingVT: Adaptive Token Halting Transformer for Efficient Video Recognition

Qian Wu, Ruoxuan Cui, Yuke Li, Haoqi Zhu

TL;DR在这篇论文中，我们提出了 HaltingVT，一种高效的视频转换器，通过自适应地删除多余的视频补丁令牌，显著降低了计算成本。此外，我们设计了一种有效的运动损失函数，在训练期间进一步鼓励 HaltingVT 专注于视频中的关键动作相关信息。通过在 Mini-Kinetics 数据集上的实验，我们在极低的 9.9 GFLOPs 下达到了 67.2% 的 top-1 准确率。

Abstract

action recognition in videos poses a challenge due to its high computational cost, especially for Joint Space-Time video transformers (Joint VT). Despite their effectiveness, the excessive number of tokens in such architectures significantly limits their efficiency. In this paper, we p

action recognition video transformer haltingvt computational cost motion-related information

发现论文，激发创造

AdaViT: 面向高效视觉 Transformer 的自适应 Token

提出了一种自适应调整视觉转换器（ViT）推理成本的方法 A-ViT，该方法基于自适应计算时间（ACT）重新表述，在不修改网络架构或推理硬件的情况下，通过自动减少处理网络的视觉转换器中的令牌数来实现此目标，并对图像分类任务性能得到了显著改进。

Dec, 2021

高效 Transformer 的沙漏分词技术用于 3D 人体姿势估计

提出了一种基于 Transformer 的 3D 人体姿态估计的剪枝和恢复框架，通过选择具有高语义多样性和消除视频帧冗余的少量代表性 Token，在中间 Transformer 块中有效地提高模型效率。

Nov, 2023

从标记稀疏化视角提高视觉 Transformer 的效率

本文介绍了一种基于语义标记的 ViT 模型，可以用于图像分类以及物体检测和实例分割等任务，并通过对空间中的池化图像标记进行 attention 的方法，来取代大量的图像标记，从而实现了网络的降维升效。

Mar, 2023

SVT: 超级令牌视频变形器用于高效视频理解

本文提出了一种超词汇视频变形器（SVT），其中包含语义池模块（SPM），该模块根据它们的语义沿着视觉变换器的深度聚合潜在表示，并因此减少了视频输入中固有的冗余；方法在 Kinectics-400 和 Something-Something-V2 数据集上得到了验证，并提高了 MAE 预训练 ViT-B 和 ViT-L 的准确性以及 MViTv2-B 的准确性。

Apr, 2023

ViGT：在 Transformer 模型中具有可学习令牌的无需提议的视频定位

基于视觉和语言描述，本研究提出了一种新的边界回归范式来定位视频中的行为或事件，通过一个可学习的回归标记来预测时间边界，而非跨模态特征，取得了良好的效果并得到了进一步验证。

Aug, 2023

HeatViT：面向视觉 Transformer 的硬件高效自适应 Token 剪枝

本文提出了一种硬件高效的图像自适应标记修剪框架 HeatViT，以在嵌入式 FPGA 上实现高效而准确的 ViT 加速，通过显著重复利用现有硬件组件来实现标记选择器，使用固定点量化和多阶段训练策略来优化插入标记选择器的变压器块，使模型在硬件上不仅提高了准确性和推理延迟，而且还可在与现有计算成本相似的情况下获得更高的准确性或在与相似模型准确性相似的情况下实现更高的计算量减少。

Nov, 2022

空间 - 时间令牌选择的有效视频 Transformer

本文提出了 STTS 框架，这是一种动态选择少量视频关键信息的方法，可以在减小计算量的同时保持较高的识别准确率。

Nov, 2021

视频变形网络

本文提出了一种基于 Transformer 的视频识别框架 VTN，它相比于传统的 3D ConvNets，通过整个视频序列的注意力机制实现动作分类，并在训练和推断时分别快 16.1 倍和 5.1 倍，同时在 Kinetics-400 数据集上获得了有竞争力的结果，表明了精度和推断速度之间的权衡。

Feb, 2021

利用 Token Dropout 和上下文细化提高视频动作检测效率

本文提出了一种基于视觉句子转换器的高效视频动作检测框架（EVAD），其中包含两个专门用于视频动作检测的设计：从关键帧 - centric 视角提取时空令牌进行中间特征显著化，通过利用剩余令牌来细化场景环境来获得精确的演员身份识别，该框架可将计算复杂度降低 43％，提高实时推断速度 40％，而不会降低性能，并且可以在类似的计算成本下使用更高分辨率的输入来提高性能。

Apr, 2023

通过 Token 重组加速视觉 Transformer：并非所有的修补程序都是您所需的

本论文提出了一种在 Vision Transformer 模型的前向推理过程中重新组织图像 tokens 的方法，以提高模型的计算效率和识别准确率。结果表明，该方法能够在保持相同的计算成本的前提下，提高模型的输入规模并提高模型的识别准确率。

Feb, 2022