May, 2024

辅助流动运动学习网络用于无监督组动作识别

TL;DR弱监督群体活动识别(WSGAR)旨在通过视频级标签而不使用参与者级标签来理解群体共同参与的活动。提出了一种用于 WSGAR 的流辅助运动学习网络(Flaming-Net),它由具有运动感知能力的参与者编码器和用于推断参与者之间的交互和活动的双路径关系模块组成。Flaming-Net 在训练阶段利用额外的光流信息来增强其对运动的感知能力,以便找到局部活动的参与者。关系模块的第一路径,即以参与者为中心的路径,首先捕捉个体参与者的时间动态,然后构建参与者之间的相互关系。同时,以群体为中心的路径在同一时间框架内建立参与者之间的空间连接,然后捕捉它们之间的同时空间动态。我们证明 Flaming-Net 在两个基准数据集上取得了新的最先进的 WSGAR 结果,包括 NBA 数据集上高出 2.8% p 的 MPCA 分数。重要的是,我们只在训练过程中使用光流信息,而不在推断过程中使用。