视频动作转换网络

CVPRDec, 2018

Video Action Transformer Network

PDF

Rohit Girdhar, João Carreira, Carl Doersch, Andrew Zisserman

TL;DR本文介绍了行动转换器模型用于识别和定位视频剪辑中的人类动作，使用 Transformer 风格的架构聚合人物周围的时空背景特征，通过高分辨率、个性化、类别不可知的查询，该模型自动学习跟踪个人并从他人的动作中获取语义上下文

Abstract

We introduce the action transformer model for recognizing and localizing human actions in video clips. We repurpose a →

action transformer human actions video clips transformer-style architecture attention mechanism

发现论文，激发创造

一种基于语义和运动感知的时空转换网络实现动作检测

本文介绍了一种新颖的时空变换网络，其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联，使用运动感知网络编码视频帧中的动作位置，并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系，该方法在四个时空动作数据集上优于最先进的解决方案：AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。

May, 2024

ActNetFormer：半监督视频动作识别的 Transformer-ResNet 混合方法

提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法，其中结合 3D 卷积神经网络（3D CNN）和视频变换器（VIT）的独特方法能够有效捕捉行为的局部和全局上下文信息，从而在标记数据的一小部分情况下实现了卓越的性能。

Apr, 2024

视觉 Transformer 在动作识别中的应用：一份调研报告

本文针对视觉 transformer 在人体动作识别领域的研究进展进行了综述，主要就其架构、模态、目标、编码、降维、自监督学习、评估指标等方面展开阐述，并探讨了其存在的挑战和未来发展方向。

Sep, 2022

多模态 Transformer 网络用于动作检测

本文提出了一种新的多模态转换器网络，用于检测未修剪视频中的动作，利用新的多模态注意机制计算不同空间和动态模态组合之间的相关性，并提出一种算法来纠正相机运动引起的动态变形，该算法在 THUMOS14 和 ActivityNet 两个公共基准测试上优于现有方法，在我们的新教育活动数据集上进行了比较实验，该数据集包括从小学捕捉的大量具有挑战性的课堂视频。

May, 2023

基于 Actor-Transformers 的群体活动识别

本文提出一种基于 actor-transformer model 认知视频中的个人行为和组群活动的模型，并通过 2D 姿态网络和 3D CNN 等方式提供丰富的个人动态和静态信息表示，从而在公开数据集上取得了显著的效果。

Mar, 2020

预测性视频转换器

提出了一种名为 AVT 的模型，它是一种基于注意力机制的端到端视频建模架构，通过关注之前观察过的视频来预测未来的动作，通过在训练时同时预测视频序列中的下一个动作。与现有的时序汇聚策略相比，AVT 在保持观察到的动作的时序进展的同时捕捉了长时间的依赖性，这对于预测任务非常关键。通过广泛的实验，该研究表明 AVT 在四个流行的动作预测基准测试中达到了最佳性能：EpicKitchens-55、EpicKitchens-100、EGTEA Gaze + 和 50-Salads；并在 EpicKitchens-100 CVPR'21 挑战赛中获得了第一名。

Jun, 2021

Action Transformer：用于基于短时间姿态的人类动作识别的自注意模型

本文介绍了 Action Transformer，一种简单的完全自注意力架构，在人体动作识别中表现出色，并利用 2D 姿势表示来提供低延迟解决方案，此外我们提供了 MPOSE2021，这是一个新的大规模数据集，用于实时、短时 HAR 的训练和评估基准建立。

Jul, 2021

动作机器：重新思考裁剪视频中的动作识别

本文提出了一种名为 Action Machine 的基于人物框架的行为识别方法，通过将 Inflated 3D ConvNet (I3D) 与人体姿态估计和基于姿态的行为识别相结合，实现了在裁剪视频中的高性能行为识别，并在多个数据集上取得了 State-of-the-Art 的表现。

Dec, 2018

视频变形网络

本文提出了一种基于 Transformer 的视频识别框架 VTN，它相比于传统的 3D ConvNets，通过整个视频序列的注意力机制实现动作分类，并在训练和推断时分别快 16.1 倍和 5.1 倍，同时在 Kinetics-400 数据集上获得了有竞争力的结果，表明了精度和推断速度之间的权衡。

Feb, 2021

面向语言驱动视频动作定位的实体感知和动作感知 Transformer

本文提出了一种利用实体感知和动作感知的转换器，通过文本实体及动作查询逐步地定位视频中的动作定位。实验表明，相比于现有方法，我们的方法在动作定位的精度上具有优势。

May, 2022