Aug, 2023

PAT: 基于位置感知的稠密多标签动作检测的Transformer

TL;DR我们提出了PAT,一种基于Transformer的网络,通过利用多尺度时间特征来学习视频中复杂的时间共现动作依赖关系。