时空动作定位的关系建模

CVPRJun, 2021

Relation Modeling in Spatio-Temporal Action Localization

Yutong Feng, Jianwen Jiang, Ziyuan Huang, Zhiwu Qing, Xiang Wang...

TL;DR本文提出一种用于动作识别的多类型关系建模方法，并采用训练策略将多种关系建模集成到两个大规模视频数据集的端对端训练中去。同时，结合记忆库的学习和面向长尾数据分布的微调方法，以进一步提高性能，最终在 AVA-Kinetics 测试集中实现了 40.67 mAP 的成绩。

Abstract

This paper presents our solution to the AVA-Kinetics Crossover Challenge of ActivityNet workshop at CVPR 2021. Our solution utilizes multiple types of relation modeling methods for spatio-temporal action detection

activity recognition spatio-temporal action detection relation modeling methods end-to-end training long-tailed distribution

发现论文，激发创造

2020 年 ActivityNet 竞赛中 AVA-Kinetics 交叉赛道第一名解决方案

本文介绍了我们在 ActivityNet Challenge 2020 竞赛中获胜的解决方案，该方案主要基于演员 - 背景 - 演员关系网络，在 AVA-Kinetics 数据集上实验，并取得了 39.62 mAP 的高分。

Jun, 2020

关系动作预测

本文旨在研究视频中多人行为预测。文章提出了一种 Discriminative Relational Recurrent Network 模型，通过构建循环图形式对不同演员之间的时空相互作用进行联合建模，从而在不需要显式监督的情况下，学习选择相关性。该方法在 AVA 数据集上预测动作的评估和 J-HMDB 任务的性能都有显著提高。

Apr, 2019

演员中心关系网络

模型人与场景、物体之间的关系有助于精细化人类行为的区分，有别于现有 3D ConvNets 的方法，而采用 actor-centric relational network 以弱监督方式自动挖掘相关要素计算 pair-wise relation，实现 state-of-the-art 表现。

Jul, 2018

关于少样本动作识别中空间关系的重要性

通过整合空间关系和时间信息，本文提出了一种新型的少样本动作识别方法 Spatial Alignment Cross Transformer (SA-CT)，并利用预训练模型进一步提升性能。

Aug, 2023

Few-shot 动作识别的时空关系建模

本文提出了一种新颖的 few-shot 动作识别框架 STRM，该框架通过聚合表示空间和时间上下文并学习高阶时间表示来增强类特定特征的可区分性，并在局部补丁级别和全局帧级别的特征补充子模块中捕获出现的特征，通过在不同阶段加强特征学习，并在四个基准数据集上进行实验，取得了领先的结果。

Dec, 2021

建模时空人体轨迹结构用于动作定位

本文提出了一种基于循环定位网络（RecLNet）的视频人类行为的时空定位方法，能够显著提高人类行为的时空定位效果，尤其在时间定位方面的改进表现较好，已在 UCF101-24 和 DALY 两个数据集上进行了评估。

Jun, 2018

AVA 任务中更好的基准模型

该研究提出了一个基于 Faster R-CNN 和 I3D 模型的简单 baseline，用于在 AVA 数据集上进行动作定位，最终模型在验证集上获得了 22.8％/21.9％的 AP，表现优于 CVPR 2018 挑战中的所有提交项。

Jul, 2018

一种基于语义和运动感知的时空转换网络实现动作检测

本文介绍了一种新颖的时空变换网络，其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联，使用运动感知网络编码视频帧中的动作位置，并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系，该方法在四个时空动作数据集上优于最先进的解决方案：AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。

May, 2024

时间动作检测的关系网络提案

本技术报告介绍了我们在 AcitivityNet 2021 挑战赛中针对时间动作检测任务提出的解决方案。我们通过使用 BMN、slowfast、CSN 和 ViViT 等方法来进行动作分类和特征编码，改进 BMN 算法的提案生成和行为检测以及不同设置下的结果综合，最终在测试集中取得 44.7% 的平均 mAP，相较于 ActivityNet 2020 冠军成绩提高了 1.9%。

Jun, 2021

时空对齐网络用于动作识别

通过引入视点不变特征表示，研究提高现有动作识别架构；提出了一种轻量级通用的空间 - 时间对齐网络（STAN）用于学习动作识别的几何不变表示；实验证明 STAN 模型在广泛使用的数据集上能够在从头开始训练的模式下持续改进动作识别任务的最先进模型。

Aug, 2023