视频拼图:用于视频动作识别的时空上下文的无监督学习
该论文提出了一种从视频的原始时空信号中学习视觉表示的方法,通过无监督的顺序验证任务,即确定来自视频的帧序列是否按照正确的时间顺序排列,学习卷积神经网络 (CNN) 的强大视觉表示,其结果显示出该方法在捕捉人类姿势等在时间上变化的信息方面具有敏感性,并可用于姿势估计和行动识别。
Mar, 2016
本文提出了一种基于视觉和时间嵌入空间的非监督学习方法,在不需要手动注释的情况下,通过连续的视频帧中存在的视觉线索,成功地检测到相关的行动群簇,并且适用于时间分割任务。
Jan, 2020
提出了一种基于磁盘聚类的统一框架,它可以处理和结合不同类型的较低需求的弱监督,从视频中监测时空活动,并将其应用于训练设置中的不同类型的监督信号实验结果证明:该模型在 UC101-24 和 DALY 数据集上具有竞争性能,而且与之前的方法相比,使用的监督信号更少。
Jun, 2018
本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征,通过训练神经网络来区分不同的时间变换的视频序列,使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明,可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。
Jul, 2020
本文提出了一种空间 - 时间自我监督学习方法,通过对无标注图像的对比学习来提取空间特征,并通过重构学习利用无标注视频中的时间线索增强特征,以在视频分析任务上取得比现有自我监督方法更好的表现,并进行了削减研究以验证两步设计以及蒸馏损失的有效性。
Sep, 2022
该研究探讨了利用空间上下文作为丰富的视觉表征的监督信号的方法。通过从每个图像中提取随机配对的路径来训练卷积神经网络,用于预测第二个路径相对于第一个路径的位置,从而实现对目标的识别,并证明该方法在性能上优于其他算法。
May, 2015
本文旨在提出一种自监督视频表示学习的新型先验任务,通过计算一系列时空统计摘要信息,利用神经网络训练来产生摘要信息,采用多种空间分区模式进行粗略的空间位置编码方法来缓解学习难度,在四个 3D 骨干网络上的实验结果表明,该方法优于现有方法在视频分析任务上的性能表现包括动作识别、视频检索、动态场景识别和动作相似性标签。
Aug, 2020
本文提出了一种利用自我监督方式从视频中学习可靠密集对应关系的方法,通过跟踪大规模图像区域和建立连续视频帧之间的像素级细粒度关联来实现。该方法利用共享的帧内亲和矩阵来建模两个任务之间的协同作用,在区域级别和像素级别同时建模视频帧之间的转换,从而在视觉对应任务中实现了优异的表现。
Sep, 2019
提出了一种自我监督的方法,基于视觉实体在空间和时间中的共现率进行分组,这种方法在图像,视频和图像集合中可以学习到实体间的关联规律,从中生成物体提议、电影场景分割和语义位置类别。
Nov, 2015
本研究介绍了一种新颖的自监督表示学习方法,称为 Skip-Clip,该方法可以利用视频中的时间连贯性,用于训练模型进行视频未来的裁剪排序预测。研究结果表明,使用我们的方法学习到的特征是通用且可转移到下游任务的,并且在 UCF101 数据集上胜过随机初始化和使用 Inflated ImageNet 参数初始化的模型,跟领先自监督方法相比也取得了有竞争力的结果。
Oct, 2019