利用正则化流抑制静态视觉提示的自监督视频表示学习
该研究提出了一种新的自监督视频表示学习方案,分别学习全局视觉概念和局部特征,使用交叉注意力机制聚合不同概念的详细本地特征来执行局部概念对比,并取得了 UCF-101、HMDB-51 和 Diving-48 的最新成果。
Jul, 2022
本文旨在提出一种自监督视频表示学习的新型先验任务,通过计算一系列时空统计摘要信息,利用神经网络训练来产生摘要信息,采用多种空间分区模式进行粗略的空间位置编码方法来缓解学习难度,在四个 3D 骨干网络上的实验结果表明,该方法优于现有方法在视频分析任务上的性能表现包括动作识别、视频检索、动态场景识别和动作相似性标签。
Aug, 2020
在没有人工标注标签的前提下,本文提出了一种自我监督学习方法来学习视频的时空特征,通过回归时空维度上的外观和运动统计量来提取视觉特征,并在视频分类任务中验证了其有效性。
Apr, 2019
本文提出了一种自监督学习的方法,通过在压缩视频中提取关键帧和动态向量来分别监督上下文和动态信息,并同时设计了两种预设任务,即上下文匹配任务和动态预测任务,以提高视频表示的质量和行动识别准确性。
Apr, 2021
本文介绍了一种名为 HVC 的混合静态动态视觉对应框架,用于自监督视频对象分割。HVC 从静态图像中提取伪动态信号,实现了高效且可扩展的 VOS 模型。该方法利用极简的全卷积架构在图像裁剪视图中捕捉静态动态视觉对应关系,并通过统一的自监督方法学习静态 - 动态特征相似性的视觉表示,从而实现联合静态和动态一致性表示的学习。HVC 仅需要一次训练会话使用静态图像数据,显著减少内存消耗(约 16GB)和训练时间(约 2 小时),并在多个自监督 VOS 基准和附加视频标签传播任务中实现了最新的性能。
Apr, 2024
提出了一种无需标注数据的自我监督视觉学习方法,通过预测视频播放速度的变化来学习视频的时空视觉表示,同时运用可变播放速度下视觉外观的变化来学习整个视频的时空视觉特征,并提出了一种新的可应用于三维卷积神经网络的可靠的时间组归一化方法,最终在 UCF-101 和 HMDB-51 数据集上验证了该方法的有效性。
Mar, 2020
在视频流的场景中,通过流变换目标使神经网络预测另一个帧的特征,实现了一种新的自我监督学习表示框架,学习到的高分辨率原始视频表示可用于静态图片的下游任务,例如语义分割、实例分割和目标检测,超越了 SimCLR 和 BYOL 等先前最先进算法得到的表示。
Jan, 2021
通过使用 Video-Induced Visual Invariances (VIVI) 的自监督学习框架,本文提出了一种可以在 19 种视觉任务中实现超过最佳监督模型的自监督转移学习方法。
Dec, 2019
本文提出了一种适用于匹配视频中对应点的特征嵌入的自监督学习方法,其中使用自然的时空一致性训练指针模型,并通过引入信息瓶颈和循环模型等方式来解决跟踪器漂移等挑战,最终取得了在视频分割和关键点跟踪上的最佳效果。
May, 2019
视频级别参照表达理解的静态与运动感知的解耦以及对时间感知的强化,并采用对比学习来区分视觉上相似的对象的运动,取得了在五个数据集上的最先进性能,并在具有挑战性的 MeViS 数据集上有了显著的 9.2% 的 J&F 改进。
Apr, 2024