May, 2024

一种基于语义和运动感知的时空转换网络实现动作检测

TL;DR本文介绍了一种新颖的时空变换网络,其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联,使用运动感知网络编码视频帧中的动作位置,并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系,该方法在四个时空动作数据集上优于最先进的解决方案:AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。