Jun, 2024

流媒体视频中的自监督式多角色社交活动理解

TL;DR在这项研究中,我们提出了一种基于多演员预测学习的自监督方法,用于流媒体视频中的社交活动识别。通过使用视觉语义图结构,我们对社交互动进行建模,从而实现了关系推理,使其在具有最少标记数据的情况下具有鲁棒性表现。该方法在标准群体活动识别基准上取得了竞争性的性能,并通过三个公开可用的动作定位基准的评估证明了其可泛化到任意动作定位的能力。