时空动作定位的关系建模
本文介绍了我们在 ActivityNet Challenge 2020 竞赛中获胜的解决方案,该方案主要基于演员 - 背景 - 演员关系网络,在 AVA-Kinetics 数据集上实验,并取得了 39.62 mAP 的高分。
Jun, 2020
本文旨在研究视频中多人行为预测。文章提出了一种 Discriminative Relational Recurrent Network 模型,通过构建循环图形式对不同演员之间的时空相互作用进行联合建模,从而在不需要显式监督的情况下,学习选择相关性。该方法在 AVA 数据集上预测动作的评估和 J-HMDB 任务的性能都有显著提高。
Apr, 2019
模型人与场景、物体之间的关系有助于精细化人类行为的区分,有别于现有 3D ConvNets 的方法,而采用 actor-centric relational network 以弱监督方式自动挖掘相关要素计算 pair-wise relation,实现 state-of-the-art 表现。
Jul, 2018
通过整合空间关系和时间信息,本文提出了一种新型的少样本动作识别方法 Spatial Alignment Cross Transformer (SA-CT),并利用预训练模型进一步提升性能。
Aug, 2023
本文提出了一种新颖的 few-shot 动作识别框架 STRM,该框架通过聚合表示空间和时间上下文并学习高阶时间表示来增强类特定特征的可区分性,并在局部补丁级别和全局帧级别的特征补充子模块中捕获出现的特征,通过在不同阶段加强特征学习,并在四个基准数据集上进行实验,取得了领先的结果。
Dec, 2021
本文提出了一种基于循环定位网络(RecLNet)的视频人类行为的时空定位方法,能够显著提高人类行为的时空定位效果,尤其在时间定位方面的改进表现较好,已在 UCF101-24 和 DALY 两个数据集上进行了评估。
Jun, 2018
该研究提出了一个基于 Faster R-CNN 和 I3D 模型的简单 baseline,用于在 AVA 数据集上进行动作定位,最终模型在验证集上获得了 22.8%/21.9%的 AP,表现优于 CVPR 2018 挑战中的所有提交项。
Jul, 2018
本文介绍了一种新颖的时空变换网络,其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联,使用运动感知网络编码视频帧中的动作位置,并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系,该方法在四个时空动作数据集上优于最先进的解决方案:AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。
May, 2024
本技术报告介绍了我们在 AcitivityNet 2021 挑战赛中针对时间动作检测任务提出的解决方案。我们通过使用 BMN、slowfast、CSN 和 ViViT 等方法来进行动作分类和特征编码,改进 BMN 算法的提案生成和行为检测以及不同设置下的结果综合,最终在测试集中取得 44.7% 的平均 mAP,相较于 ActivityNet 2020 冠军成绩提高了 1.9%。
Jun, 2021
通过引入视点不变特征表示,研究提高现有动作识别架构;提出了一种轻量级通用的空间 - 时间对齐网络(STAN)用于学习动作识别的几何不变表示;实验证明 STAN 模型在广泛使用的数据集上能够在从头开始训练的模式下持续改进动作识别任务的最先进模型。
Aug, 2023