视频 Transformer 实现端到端时空动作定位

Apr, 2023

视频 Transformer 实现端到端时空动作定位

End-to-End Spatio-Temporal Action Localisation with Video Transformers

Alexey Gritsenko, Xuehan Xiong, Josip Djolonga, Mostafa Dehghani, Chen Sun...

TL;DR提出一种基于 Transformer、全端到端的模型，该模型直接处理输入视频并输出一系列边界框和每一帧的动作类别，能够使用稀疏边界框基础训练或完整灯管基础训练训练，且无需额外的前处理或后处理即可预测出高质量的结果，并在四个不同的局部性数据集上取得优异的实验成果。

Abstract

The most performant spatio-temporal action localisation models use external person proposals and complex external memory banks. We propose a fully end-to-end, purely-transformer based model that directly ingests an input video, and outputs →

spatio-temporal action localisation transformer-based model tubelets bounding-box supervision state-of-the-art results

发现论文，激发创造

TubeR：用于视频动作检测的 Tubelet Transformer

本文提出了一种简单的解决方案 TubeR，用于实现时空视频动作检测，可以有效地增强模型容量，并且直接产生变长动作管道，并在常用的行动检测数据集 AVA、UCF101-24 和 JHMDB51-21 上优于先前的最佳状态。

Apr, 2021

时空动作定位的 Action Tubelet 检测器

本文通过提出 ACT-detector，结合对象检测中的 anchor boxes 思想，利用视频的时间连续性进行动作检测，结果表明在 J-HMDB 和 UCF-101 数据集上，我们的 ACT-detector 检测方法在帧 - 平均精度 (frame-mAP) 和视频 - 平均精度 (video-mAP) 上都优于基于帧的最新方法，特别是具有高重叠阈值时，精度和定位都得到了显著的提升。

May, 2017

视频中多个时空动作管的深度学习检测

提出了一个新的方法，利用三个阶段的框架实现了视频中多个并发动作的时空本地化（检测）和分类，通过动态规划构建了最有可能与单个动作实例相关联的检测框序列，其表现在 UCF101、J-HMDB-21 和 LIRIS-HARL 数据集上都显著优于现有结果，改进最大检出率（mAP）比之前提高了约 20％和 11％。

Aug, 2016

在线实时多时空动作本地化和预测

本研究提出了一个深度学习框架，可实时进行多个时空动作的本地化、分类和早期预测，通过实时的 SSD 卷积神经网络进行回归和分类检测，再通过一个高效的在线算法构建和标记动作管道以进行实时分析，对于 S/T 动作本地化和早期动作预测在 UCF101-24 和 J-HMDB-21 测试基准中均取得了最新的最佳结果，即使与顶级离线竞争对手相比，我们的系统也可以实现 40fps 的在线 S/T 动作本地化和早期动作预测，本文是首个实现此功能的实时系统。

Nov, 2016

TubeDETR: 基于 Transformer 的时空视频锚定

提出了基于 Transformer 的 TubeDETR 模型，该模型能够高效地建模时空和多模态交互，用于解决视频中给定文本查询的时空定位问题，并且在视频定位任务上表现出色。

Mar, 2022

动作定位的通用管道提议

本文提出了一种新的基于视频的行动定位框架，使用管道提案网络 (TPN) 生成通用的、独立于类别、视频级别的管状建议，可用于各种视频分析任务，包括行动识别和定位。与其他方法相比，我们的通用管状建议方法准确、通用，并在平滑 L1 损失函数下完全可微。在标准的 UCF-Sports、J-HMDB21 和 UCF-101 数据集上证明了算法的性能。我们的独立于类别的 TPN 优于其他管状建议方法，我们的统一时间深度网络在所有三个数据集上都实现了最先进的定位结果。

May, 2017

发现时空动作管道

本文提出通过静态和运动信息的早期和后期融合检测和跟踪点匹配算法实现视频中时空动作检测，并使用递归 3D 卷积神经网络来预测并确定生成的动作分类和时间边界。通过引入动作足迹图以及 R3DCNN 卷积层中保留的特定空间特征来细化候选框，并在三个公共数据集上获得了优越的检测结果：UCFSports、J-HMDB 和 UCF101。

Nov, 2018

使用管段提案网络进行视频目标检测

该研究提出了一种基于 tubelet 提案网络和 LSTM 网络的视频对象检测框架，以在视频中高效地生成空间时间提案并融合时间信息以实现高精度的对象检测。

Feb, 2017

针对零样本动作识别的端到端语义视频变换器

本文提出了一种新的端到端训练 Transformer 模型的方法，能够高效地捕捉长期时空依赖性，在零样本学习方面获得了最新进展，通过避免训练和测试类之间的重叠，提出了一个新的实验设置方案，该方法在 UCF-101、HMDB-51 和 ActivityNet 数据集上的 top-1 准确性明显优于现有技术的水平。

Mar, 2022

面向语言驱动视频动作定位的实体感知和动作感知 Transformer

本文提出了一种利用实体感知和动作感知的转换器，通过文本实体及动作查询逐步地定位视频中的动作定位。实验表明，相比于现有方法，我们的方法在动作定位的精度上具有优势。

May, 2022