弱监督群体活动识别的社交适应模块
本文提出了一种使用自我监督变压器网络的社交组活动识别(SoGAR)的新方法,可以有效利用未标记的视频数据,通过利用变化的帧率创建局部和全局视图来提取空时信息,并通过提取来自同一视频的对比视图的特征的自我监督目标,确保跨空时域中的特征是一致的。该方法在使用变压器模型方面具有高效性,可以沿着空时维度建模长期关系,并在三个小组活动识别基准测试中取得了最新的成果,在 F1-score,MCA 和 MPCA 指标方面超越了当前最新技术。
Apr, 2023
本文提出了一种新的、简单、有效的自我监督空间时间变换器(SPARTAN)方法来使用未标记的视频数据对小组活动识别(GAR)进行识别。该方法采用 encoder 提取视频特征,并进行长期关系建模,通过处理不同的空间尺度和帧率来进行自我监督训练,最终在 NBA 和排球数据集上显著优于现有的最先进算法。
Mar, 2023
在这项研究中,我们提出了一种基于多演员预测学习的自监督方法,用于流媒体视频中的社交活动识别。通过使用视觉语义图结构,我们对社交互动进行建模,从而实现了关系推理,使其在具有最少标记数据的情况下具有鲁棒性表现。该方法在标准群体活动识别基准上取得了竞争性的性能,并通过三个公开可用的动作定位基准的评估证明了其可泛化到任意动作定位的能力。
Jun, 2024
本研究提出了一种新的基于 Transformer 模型的团队活动识别方法,该方法借助注意机制对部分环节进行定位与编码,再对其进行聚合以反映整个活动的完整背景和每个环节的时间演化,无需借助较强的监督方法,在两个基准测试中均表现良好。
Apr, 2022
弱监督群体活动识别(WSGAR)旨在通过视频级标签而不使用参与者级标签来理解群体共同参与的活动。提出了一种用于 WSGAR 的流辅助运动学习网络(Flaming-Net),它由具有运动感知能力的参与者编码器和用于推断参与者之间的交互和活动的双路径关系模块组成。Flaming-Net 在训练阶段利用额外的光流信息来增强其对运动的感知能力,以便找到局部活动的参与者。关系模块的第一路径,即以参与者为中心的路径,首先捕捉个体参与者的时间动态,然后构建参与者之间的相互关系。同时,以群体为中心的路径在同一时间框架内建立参与者之间的空间连接,然后捕捉它们之间的同时空间动态。我们证明 Flaming-Net 在两个基准数据集上取得了新的最先进的 WSGAR 结果,包括 NBA 数据集上高出 2.8% p 的 MPCA 分数。重要的是,我们只在训练过程中使用光流信息,而不在推断过程中使用。
May, 2024
提出一种新颖的半监督、多层级顺序生成对抗网络(MLS-GAN)架构来进行群体活动识别,该网络架构利用个人和场景等级的特征,通过 LSTMs 实现映射,通过新颖的门控融合单元进行基于动作的特征融合,学习当前群体活动的中间表示或 “动作代码”,并具有半监督行为,可实现群体动作分类,相较于其他结构表现出更优秀的效果。
Dec, 2018
REACT 是一种新颖的架构,受到了 Transformer 编码器 - 解码器模型的启发,旨在模拟视频中复杂的上下文关系,包括多模态和时空特征的交互。该方法在广泛的实验证明,在识别和理解群体活动方面表现出优越的准确性,为细致的场景理解提供了稳健的框架。
Nov, 2023
提出一种新的方法 WSGN,使用弱监督学习从视频中标注人类动作,包括视频级别标签,通过学习视频特定以及数据集范围内的统计信息来预测每个帧对于动作类别的相关性,可在两项标准测试中显著提高动作检测效果并且在 Charades 数据集上弱监督方法与有监督方法之间只有 0.3% mAP 的差距。
Apr, 2019
本文提出了一种基于视频级别标签进行训练的视频动作识别模型,该模型利用大型图像数据集中训练的逐帧人物检测器,在多实例学习框架内实现。此外,我们使用新的概率多实例学习方法来估计每个预测的不确定性,并在 AVA 数据集上取得了第一个弱监督结果,在 UCF101-24 上获得了弱监督方法的最新成果。
Jul, 2020
本研究提出一种基于序列关系预测模型的组活动预测方法,该模型可以总结部分观测数据中的关系动态并逐步预测具有区分性信息的群体表示,通过两种图形自编码器预测活动特征和位置,并在实验中取得了显著的预测效果。
Aug, 2020