本文提出了一个基于无监督学习的方法来学习视频中的动作识别表示,该方法结合图像表示中的两种顶级目标 —— 实例识别和局部聚合,以及通过 IDT 描述符构成的集群。使用此方法,我们在 UCF101 和 HMDB51 动作识别基准测试中取得了优异的结果,并且成功捕捉了视频动态。
Jun, 2020
本文提出了基于三维表示的方法以及引入了一层新的几何卷积层,从而使当前卷积神经网络模型可以学习具有视角不变性的表示,且对于未见过的视角也可以进行识别。我们还提出了一个新的具有挑战性的未见视角识别数据集,并展示了该方法学习视角不变表示的能力。
Mar, 2021
本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征,通过训练神经网络来区分不同的时间变换的视频序列,使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明,可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。
Jul, 2020
本文提出了一种从视频中自动学习姿态特征的无监督方法,该方法利用了动作信号这一与外貌互补且可用于监督的信号,使用一个外貌卷积神经网络和一个运动卷积神经网络来表示姿态和生成动作编码,通过在 FLIC、PASCAL、UCF101 和 HMDB51 数据集上的 fine-tuning 实验证明了其在静态图像动作识别和视频动作识别方面的优越性。
Sep, 2016
该论文提出了一种利用未标记视频进行计算机视觉的动作和物体预测的深度学习框架,并采用可预测图像特征的目标识别算法进行实验验证。
Apr, 2015
提出了一种自监督学习的方法,可以从多个视角拍摄的未标记视频中学习表征和机器人行为,能够用于机器人模仿人类的对象交互和身体姿势,训练该模型使用度量学习损失,使该模型能够发现在不同视角下发生变化但在时间域内不发生变化的属性,并可在强化学习算法中用作奖励函数。
Apr, 2017
该论文提出了一个基于超伯利几何的预测模型,能够从未标记的视频中学习可预测特征的层次结构,并在动作预测方面展现出层次表示法的关键作用。
Jan, 2021
本文提出了一种全新的无监督学习框架来从单一的输入视频中学习适合于行动分割任务的动作表示,无需任何训练数据,达到了与现有无监督方法相比更高质量的时间边界恢复,并通过应用聚类算法在学习的表示上取得了具有竞争力的表现。
Apr, 2023
本文提出了一种新的方法来从大规模的无标签视频数据中学习视频表示,采用无监督表示学习作为多模式、多任务学习问题,利用进化搜索算法来自动找到捕获许多(自我监督)任务和模态的优化损失函数的组合,并提出了一种基于 Zipf 定律的无监督表示验证度量,该度量不受任何标签的指导,可产生类似于弱监督、特定任务的结果,该方法得到了单一 RGB 网络的无监督表示学习,并且胜过了之前的方法。
Feb, 2020
提出一种新的基于弱监督框架,通过利用注意力机制定位动作帧同时识别未修剪视频中的动作,利用修剪视频中的信息传递知识来提高分类性能。在 THUMOS14 和 ActivityNet1.3 上经过广泛的实验,实验证明了该方法的有效性。
Feb, 2019