本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示,通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互,并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估,定量和定性结果证实了我们提出方法的有效性。
Oct, 2023
在这项研究中,我们提出了一种基于多演员预测学习的自监督方法,用于流媒体视频中的社交活动识别。通过使用视觉语义图结构,我们对社交互动进行建模,从而实现了关系推理,使其在具有最少标记数据的情况下具有鲁棒性表现。该方法在标准群体活动识别基准上取得了竞争性的性能,并通过三个公开可用的动作定位基准的评估证明了其可泛化到任意动作定位的能力。
Jun, 2024
本文介绍一种视频动作时空本地化的方法,着重于弱监督学习,只需要视频类标签即可。利用演员在动作中的变换特性,引入基于演员提议的算法及注意力机制,对三个行为数据集进行测试,实验结果表明,该方法在弱监督下可以实现与一些强监督学习相当的性能。
Apr, 2018
本文提出了一种基于注意力机制的分层结构潜在模型,用于学习特征语义的时间变化,通过两个组件进行实现:第一个是无监督的变点检测模块,通过在时间层次中学习视频特征的变化率来检测变点;第二个是基于注意力的分类模型,将前景的变点作为边界来选择。通过在两个基准数据集 THUMOS-14 和 ActivityNet-v1.3 上进行广泛实验,结果表明我们的方法优于当前最先进的方法,并且甚至与全监督方法具有可比较的性能。
Aug, 2023
本文提出了一种使用条件变分自编码器模型来处理弱监督下的动作定位问题的方法,通过建立一个概率模型来模拟每一帧在给定关注度的情况下应当属于动作或非动作中的哪一类,从而有效地解决了动作与上下文之间相互混淆的问题。
Mar, 2020
该研究提出了一种潜在方法,利用注意力模型进行弱监督学习,其可以检测出影片中的动作,而无需特定类别的标签, 并利用弱监督学习进行比较准确的学习和定位,成功地应用于 Instagram 中的不加筛选的视频之间。
Aug, 2019
提出一种无监督学习框架,利用未标记的数据来学习视频表示,通过学习推断不同视图的三维运动,捕捉视角不变的动作特征,以及增强视角不变特征的学习方法,并在多个数据集上证明该方法对动作识别的有效性。
Sep, 2018
提出一种新的基于弱监督框架,通过利用注意力机制定位动作帧同时识别未修剪视频中的动作,利用修剪视频中的信息传递知识来提高分类性能。在 THUMOS14 和 ActivityNet1.3 上经过广泛的实验,实验证明了该方法的有效性。
Feb, 2019
本文介绍了一种面向电影理解的自监督视频学习方法,采用分层的预训练策略,在低层进行对比学习,高层则采用事件遮罩预测任务来预训练视频上下文模型,并在 VidSitu 基准测试中表现出更好的性能。同时,在 LVU 任务中,我们还展示了上下文化事件特征的有效性。
Apr, 2022
本研究提出使用注意力模块中的演员条件化关注映射(ACAM)代替兴趣区域池化,以实现针对特定演员的动作定位,并利用预训练的物体检测器进行物体检测,从而在 AV2.1 和 JHMDB 数据集上获得明显改进。
Dec, 2018