利用 Token Dropout 和上下文细化提高视频动作检测效率

Apr, 2023

利用 Token Dropout 和上下文细化提高视频动作检测效率

Efficient Video Action Detection with Token Dropout and Context Refinement

Lei Chen, Zhan Tong, Yibing Song, Gangshan Wu, Limin Wang

TL;DR本文提出了一种基于视觉句子转换器的高效视频动作检测框架（EVAD），其中包含两个专门用于视频动作检测的设计：从关键帧 - centric 视角提取时空令牌进行中间特征显著化，通过利用剩余令牌来细化场景环境来获得精确的演员身份识别，该框架可将计算复杂度降低 43％，提高实时推断速度 40％，而不会降低性能，并且可以在类似的计算成本下使用更高分辨率的输入来提高性能。

Abstract

Streaming video clips with large-scale video tokens impede vision transformers (vits) for efficient recognition, especially in video action detection where sufficient spatiotemporal representations are required for precise actor identification. In this work, we propose an end-to-end fr

video action detection vits spatiotemporal token dropout scene context real-time inference

发现论文，激发创造

针对未剪辑视频的短期 Transformer 动作检测的调整

设计了一种适应预训练的 ViT 模型作为统一的长视频 Transformer 的新机制，以捕捉不同片段间的精细关系，并保持较低的计算开销和内存消耗，实现高效的时间动作检测。

Dec, 2023

AdaViT: 面向高效视觉 Transformer 的自适应 Token

提出了一种自适应调整视觉转换器（ViT）推理成本的方法 A-ViT，该方法基于自适应计算时间（ACT）重新表述，在不修改网络架构或推理硬件的情况下，通过自动减少处理网络的视觉转换器中的令牌数来实现此目标，并对图像分类任务性能得到了显著改进。

Dec, 2021

上下文感知 RCNN：视频中动作检测的基线

使用 Context-Aware RCNN 方法，将 RoI-Pooling 基于管道的惯常思维挑战，填补了视频行为检测中的空白，迎来了新的思路。

Jul, 2020

DynamicViT：动态 Token 稀疏化的高效视觉 Transformers

提出了一种动态的、基于输入的 Token 稀疏化框架，通过阈值删除多余的信息元素，并通过自注意力网络的特性，使其仍然具有硬件友好性。在保证精度的同时，相比现有 CNN 和 Transformer 模型，通过分层删减 66% 的输入元素，可以大大减少 FLOPs、提高吞吐量。

Jun, 2021

使用 Transformer 进行端到端时序动作检测

本研究提出了一种基于 Transformer 的时态动作检测方法，通过少量学习嵌入（称为动作查询）从视频中自适应地提取时间上下文信息，并直接预测动作实例的时间间隔和语义标签，通过三种改进提高本地化意识，实现了端到端的学习，并取得了与现有方法相比的卓越性能。

Jun, 2021

ZEETAD：适用于零样本端到端时间动作检测的预训练视觉 - 语言模型的调整

本研究呈现了 ZEETAD，这是一个基于 Transformer 和 CLIP 模块的零样本时间动作检测方法，通过最小程度地更新冻结的 CLIP 编码器，实现对未见过的动作类别的辨别能力增强，并展示了其在零样本时间动作检测和从 ViL 模型到未见动作类别的有效知识传递方面的卓越性能。

Nov, 2023

HaltingVT: 适用于高效视频识别的自适应停止令牌变换器

在这篇论文中，我们提出了 HaltingVT，一种高效的视频转换器，通过自适应地删除多余的视频补丁令牌，显著降低了计算成本。此外，我们设计了一种有效的运动损失函数，在训练期间进一步鼓励 HaltingVT 专注于视频中的关键动作相关信息。通过在 Mini-Kinetics 数据集上的实验，我们在极低的 9.9 GFLOPs 下达到了 67.2% 的 top-1 准确率。

Jan, 2024

动态令牌传递变换器用于语义分割

通过引入动态令牌过渡视觉转换器（DoViT）对图像进行语义分割，适应性地降低了不同复杂度图像的推理成本，通过逐渐停止部分易处理的令牌的自注意计算并保持难处理的令牌继续前进直到满足停止标准，利用轻量级辅助头部做出令牌传递决策并将令牌划分为保留 / 停止部分，通过令牌的分离计算，使用稀疏令牌加速自注意层，并在硬件上保持友好性，构建令牌重建模块以收集和重置分组令牌到序列中的原始位置，这对于预测正确的语义掩码是必要的，我们在两个常见的语义分割任务上进行了大量实验证明我们的方法在各种分割转换中大大减少了 40％〜60％的 FLOPs，mIoU 的降低在 0.8％以内，并且 Cityscapes 上的 ViT-L/B 的吞吐量和推理速度增加了 2 倍以上。

Aug, 2023

基于记忆增强的在线视频异常检测

该研究介绍了一个名为 MOVAD 的智能汽车实时系统，它利用只能捕捉器固定摄像头拍摄的视频进行信息提取和到不同时间段的信息关联来及时响应异常情况。该系统包含视频分析技术和短期记忆和长期记忆两个部分，能够在 DoTA 数据集的测试中取得比目前同类技术高 2.81 的准确率。

Feb, 2023

稀疏提议优化高质量时序动作检测

本文提出了一种名为 SP-TAD 的方法来应对在时间行为检测上的挑战，其利用了稀疏 proposal 和特征金字塔来构建多尺度特征以准确捕捉行为细节，实验结果表明，该方法取得了与现有最优方法相媲美的性能。

Sep, 2021