利用正则化流抑制静态视觉提示的自监督视频表示学习

AAAIDec, 2021

利用正则化流抑制静态视觉提示的自监督视频表示学习

Suppressing Static Visual Cues via Normalizing Flows for Self-Supervised Video Representation Learning

Manlin Zhang, Jinpeng Wang, Andy J. Ma

TL;DR提出了一种基于概率分析的新方法，通过对视频编码进行正态流处理和随机变量建模来抑制静态视觉提示，从而获得更可靠的视频表示，这可以被更好地推广到各种下游任务中。

Abstract

Despite the great progress in video understanding made by deep convolutional neural networks, feature representation learned by existing methods may be biased to static visual cues. To address this issue, we propose a novel method to suppress →

video representation learning static visual cues probabilistic analysis self-supervised learning deep convolutional neural networks

发现论文，激发创造

自监督视频表示学习的静态和动态概念

该研究提出了一种新的自监督视频表示学习方案，分别学习全局视觉概念和局部特征，使用交叉注意力机制聚合不同概念的详细本地特征来执行局部概念对比，并取得了 UCF-101、HMDB-51 和 Diving-48 的最新成果。

Jul, 2022

通过发掘时空统计信息进行自监督视频表示学习

本文旨在提出一种自监督视频表示学习的新型先验任务，通过计算一系列时空统计摘要信息，利用神经网络训练来产生摘要信息，采用多种空间分区模式进行粗略的空间位置编码方法来缓解学习难度，在四个 3D 骨干网络上的实验结果表明，该方法优于现有方法在视频分析任务上的性能表现包括动作识别、视频检索、动态场景识别和动作相似性标签。

Aug, 2020

通过预测动态和外观统计信息进行视频自监督时空表示学习

在没有人工标注标签的前提下，本文提出了一种自我监督学习方法来学习视频的时空特征，通过回归时空维度上的外观和运动统计量来提取视觉特征，并在视频分类任务中验证了其有效性。

Apr, 2019

通过上下文和运动解耦实现自监督视频表示学习

本文提出了一种自监督学习的方法，通过在压缩视频中提取关键帧和动态向量来分别监督上下文和动态信息，并同时设计了两种预设任务，即上下文匹配任务和动态预测任务，以提高视频表示的质量和行动识别准确性。

Apr, 2021

动态与静态：面向自主训练的视频对象分割的混合视觉对应

本文介绍了一种名为 HVC 的混合静态动态视觉对应框架，用于自监督视频对象分割。HVC 从静态图像中提取伪动态信号，实现了高效且可扩展的 VOS 模型。该方法利用极简的全卷积架构在图像裁剪视图中捕捉静态动态视觉对应关系，并通过统一的自监督方法学习静态 - 动态特征相似性的视觉表示，从而实现联合静态和动态一致性表示的学习。HVC 仅需要一次训练会话使用静态图像数据，显著减少内存消耗（约 16GB）和训练时间（约 2 小时），并在多个自监督 VOS 基准和附加视频标签传播任务中实现了最新的性能。

Apr, 2024

利用可变的回放速度预测视频的自监督视觉学习

提出了一种无需标注数据的自我监督视觉学习方法，通过预测视频播放速度的变化来学习视频的时空视觉表示，同时运用可变播放速度下视觉外观的变化来学习整个视频的时空视觉特征，并提出了一种新的可应用于三维卷积神经网络的可靠的时间组归一化方法，最终在 UCF-101 和 HMDB-51 数据集上验证了该方法的有效性。

Mar, 2020

基于流等变性的自监督表征学习

在视频流的场景中，通过流变换目标使神经网络预测另一个帧的特征，实现了一种新的自我监督学习表示框架，学习到的高分辨率原始视频表示可用于静态图片的下游任务，例如语义分割、实例分割和目标检测，超越了 SimCLR 和 BYOL 等先前最先进算法得到的表示。

Jan, 2021

自监督学习视频诱导视觉不变性

通过使用 Video-Induced Visual Invariances (VIVI) 的自监督学习框架，本文提出了一种可以在 19 种视觉任务中实现超过最佳监督模型的自监督转移学习方法。

Dec, 2019

自监督学习的视频对应流

本文提出了一种适用于匹配视频中对应点的特征嵌入的自监督学习方法，其中使用自然的时空一致性训练指针模型，并通过引入信息瓶颈和循环模型等方式来解决跟踪器漂移等挑战，最终取得了在视频分割和关键点跟踪上的最佳效果。

May, 2019

解耦参照视频分割中的静态与层级运动感知

视频级别参照表达理解的静态与运动感知的解耦以及对时间感知的强化，并采用对比学习来区分视觉上相似的对象的运动，取得了在五个数据集上的最先进性能，并在具有挑战性的 MeViS 数据集上有了显著的 9.2% 的 J&F 改进。

Apr, 2024