STMixer：一阶段稀疏动作检测器

CVPRMar, 2023

STMixer: A One-Stage Sparse Action Detector

Tao Wu, Mengqi Cao, Ziteng Gao, Gangshan Wu, Limin Wang

TL;DR该论文提出了一种新的一阶稀疏行动检测器 STMixer，它采用了基于查询的自适应特征采样模块和双分支特征混合模块，可以在 AVD，UCF101-24 和 JHMDB 数据集上取得最佳成果。

Abstract

Traditional video action detectors typically adopt the two-stage pipeline, where a person detector is first employed to generate actor boxes and then 3D RoIAlign is used to extract actor-specific features for classification. This detection paradigm requires multi-stage training and inference, and cannot capture context information outside the bounding box. R

video action detection query-based action detector stmixer feature sampling feature mixing

发现论文，激发创造

STMixer: 一阶稀疏行动检测器

本文提出了一种更灵活的一阶稀疏动作检测器，其中核心设计包括：基于查询的自适应特征采样模块，以及解耦的特征混合模块。在关键帧动作检测或动作轨迹检测的五个具有挑战性的时空动作检测基准上，我们的 STMixer 检测器获得了最新的成果。

Apr, 2024

STM: 时空和动作编码用于动作识别

本文提出了一个基于 2D 框架的 STM 网络，利用 STM 块替换 ResNet 架构中的残差块，同时编码时空特征和动作特征，实现了高效的视频动作识别。实验证明，提出的方法在数据集 Something-Something v1&v2、Jester、Kinetics-400、UCF-101 和 HMDB-51 上性能优于其他现有方法。

Aug, 2019

一种基于语义和运动感知的时空转换网络实现动作检测

本文介绍了一种新颖的时空变换网络，其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联，使用运动感知网络编码视频帧中的动作位置，并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系，该方法在四个时空动作数据集上优于最先进的解决方案：AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。

May, 2024

在线实时多时空动作本地化和预测

本研究提出了一个深度学习框架，可实时进行多个时空动作的本地化、分类和早期预测，通过实时的 SSD 卷积神经网络进行回归和分类检测，再通过一个高效的在线算法构建和标记动作管道以进行实时分析，对于 S/T 动作本地化和早期动作预测在 UCF101-24 和 J-HMDB-21 测试基准中均取得了最新的最佳结果，即使与顶级离线竞争对手相比，我们的系统也可以实现 40fps 的在线 S/T 动作本地化和早期动作预测，本文是首个实现此功能的实时系统。

Nov, 2016

多模态 Transformer 网络用于动作检测

本文提出了一种新的多模态转换器网络，用于检测未修剪视频中的动作，利用新的多模态注意机制计算不同空间和动态模态组合之间的相关性，并提出一种算法来纠正相机运动引起的动态变形，该算法在 THUMOS14 和 ActivityNet 两个公共基准测试上优于现有方法，在我们的新教育活动数据集上进行了比较实验，该数据集包括从小学捕捉的大量具有挑战性的课堂视频。

May, 2023

单次拍摄的时间动作检测

该研究提出了一种基于 1D 时间卷积层的单次动作检测器（SSAD）网络来直接检测未修剪视频中的动作实例以提高检测精度。在改进检测精度的过程中，它探讨了输入特征类型和融合策略，并在两个具有挑战性的数据集上进行了广泛的实验，证明了在 THUMOS 2014 和 MEXaction2 的评估过程中，SSAD 的 mAP 比其他最先进的系统增加了很多。

Oct, 2017

多尺度视觉 Transformer 结合二分图匹配进行高效单阶段动作定位

这篇研究旨在解决行动定位的问题，提出了一种基于 MViTv2-S 模型、使用匹配损失函数的架构，通过直接应用视觉转换器的输出标记进行双向匹配，实现同时完成行动定位和目标检测的任务，在 AVA2.2 数据集上相对于两阶段方法，在 mAP 上取得了 + 3 的提升。

Dec, 2023

单次拍摄时间动作检测中解耦定位和分类

本研究提出一种新的解决视频时序动作检测单级方案的方法 - Decoupled Single Shot temporal Action Detection (Decouple-SSAD)，通过在并行中设计两个单独的分支来实现定位和分类的解耦，从而提高训练效果。该方法在 THUMOS14 数据集上进行了广泛实验，证明了其优越性能。

Apr, 2019

MS-TCT: 多尺度时间卷积转换器用于动作检测

我们提出了一种基于 ConvTransformer 网络的行动检测方法，通过三个组件（时间编码器、时间尺度混合器和分类器）高效地捕捉视频中的短期和长期时间信息，实验表明该方法在 Charades、TSU 和 MultiTHUMOS 数据集上效果显著优于现有方法。

Dec, 2021

STEP: 视频动作检测的时空渐进学习

本文提出了一个逐步学习的动作检测框架，通过逐步改善提取物体框的精度以捕获视频中的动作。我们在 UCF101 和 AVA 数据集上验证了该框架，获得了显著的检测结果。

Apr, 2019