利用视频连续性进行自监督的时空表征学习
本文旨在提出一种自监督视频表示学习的新型先验任务,通过计算一系列时空统计摘要信息,利用神经网络训练来产生摘要信息,采用多种空间分区模式进行粗略的空间位置编码方法来缓解学习难度,在四个 3D 骨干网络上的实验结果表明,该方法优于现有方法在视频分析任务上的性能表现包括动作识别、视频检索、动态场景识别和动作相似性标签。
Aug, 2020
本文提出了一种自监督学习的方法,通过在压缩视频中提取关键帧和动态向量来分别监督上下文和动态信息,并同时设计了两种预设任务,即上下文匹配任务和动态预测任务,以提高视频表示的质量和行动识别准确性。
Apr, 2021
本文提出了一种基于无监督自学习框架的视频场景分割算法,采用三种新颖的边界感知预训练任务 (SSM, CGM, PP),重点在于设计有效的预训练任务,通过广泛的实验结果表明,预训练和转移环境表示对于改善视频场景分割性能至关重要,并实现了 MovieNet-SSeg 基准测试的最新最好成绩。
Jan, 2022
本文提出了一种空间 - 时间自我监督学习方法,通过对无标注图像的对比学习来提取空间特征,并通过重构学习利用无标注视频中的时间线索增强特征,以在视频分析任务上取得比现有自我监督方法更好的表现,并进行了削减研究以验证两步设计以及蒸馏损失的有效性。
Sep, 2022
在没有人工标注标签的前提下,本文提出了一种自我监督学习方法来学习视频的时空特征,通过回归时空维度上的外观和运动统计量来提取视觉特征,并在视频分类任务中验证了其有效性。
Apr, 2019
提出一种新的基于神经网络的方法,该方法利用类似人类的注意机制来自主地以像素为单位学习视频流的表示,本文的实验表明,该方法可以在少量监督的情况下进行开放式类增量分类。
Apr, 2022
本文提出了一种基于上下文感知的时空对比学习(ConST-CL)的方法,该方法成功地实现了学习细粒度视频表示,利用区域预文本任务引导模型从一个视角到另一个视角转换,并整合整体和局部表示的并行学习过程。我们在多个数据集上评估了所学得的表示,并展示了 ConST-CL 在 6 个数据集上取得了具有竞争力的结果,包括 Kinetics,UCF,HMDB,AVA-Kinetics,AVA 和 OTB。
Dec, 2021
我们提出了更具挑战性的帧级自我监督任务和有效的增强策略,通过增加 Transformer 模型来训练从对比学习中预训练的单帧视频表示,大幅提升了通过时间自我监督学习到的特征的质量,并且在高水平语义任务和低水平时序任务上表现出卓越的性能。
Dec, 2023
提出了一种自监督学习的方法,可以从多个视角拍摄的未标记视频中学习表征和机器人行为,能够用于机器人模仿人类的对象交互和身体姿势,训练该模型使用度量学习损失,使该模型能够发现在不同视角下发生变化但在时间域内不发生变化的属性,并可在强化学习算法中用作奖励函数。
Apr, 2017
本篇研究提出了一种新的基于条件运动传播和稀疏光流技术的自监督学习范式,能够有效地学习视觉表征,并在语义分割、实例分割以及人体解析等多个任务上实现最先进的自监督学习表现,还能实现半自动像素级标注。
Mar, 2019