自监督视频 Transformer

CVPRDec, 2021

Self-supervised Video Transformer

Kanchana Ranasinghe, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, Michael Ryoo

TL;DR本研究提出了一种基于未标记视频数据进行自监督训练的视频 Transformer 方法。通过使用不同的空间大小和帧速率创建局部和全局的时空视图，实现了视频内 actions 的时空不变性，并且该方法不再需要使用负样本或专用存储器。该方法在动作识别基准数据集（Kinetics-400，UCF-101，HMDB-51 和 SSv2）上表现出色，并能够在小批量的情况下更快地收敛。

Abstract

In this paper, we propose self-supervised training for video transformers using unlabeled video data. From a given video, we create local and global →

self-supervised training video transformers spatiotemporal views action recognition batch sizes

发现论文，激发创造

时间至上：为视频 Transformer 提供时间自监督

本文提出了一种面向视频任务的基于 Transformer 的模型，通过自监督学习并增加对视频帧之间时间轴的考虑，有效地消除了空间偏差，提升了模型对于时间动态的表征能力并实现了很好的视频分类效果。

Jul, 2022

通过预测动态和外观统计信息进行视频自监督时空表示学习

在没有人工标注标签的前提下，本文提出了一种自我监督学习方法来学习视频的时空特征，通过回归时空维度上的外观和运动统计量来提取视觉特征，并在视频分类任务中验证了其有效性。

Apr, 2019

SPARTAN：自监督时空 Transformer 方法用于群体活动识别

本文提出了一种新的、简单、有效的自我监督空间时间变换器（SPARTAN）方法来使用未标记的视频数据对小组活动识别（GAR）进行识别。该方法采用 encoder 提取视频特征，并进行长期关系建模，通过处理不同的空间尺度和帧率来进行自我监督训练，最终在 NBA 和排球数据集上显著优于现有的最先进算法。

Mar, 2023

自我监督视觉 Transformer 训练的实证研究

本文研究的是计算机视觉中的自监督学习，探究了一些基本组件对自监督 ViT 训练的影响，发现稳定性是一个重要的问题，本文通过案例研究表明了部分成果实际上是不完全的失败，并探讨了当前的积极证据、挑战和开放问题。

Apr, 2021

视频 Transformer 的长短时对比学习

本文提出了一种叫做 “长短时对比学习（LSTCL）” 的学习程序，可以让视频变压器模型在预测来自更长的时间范围内捕获的时序上下文的同时，学习一个有效的剪辑级表示，并在多项视频基准测试上取得了有竞争力的表现，成为有监督基于图像的预训练的有力替代方案。

Jun, 2021

自监督学习视频诱导视觉不变性

通过使用 Video-Induced Visual Invariances (VIVI) 的自监督学习框架，本文提出了一种可以在 19 种视觉任务中实现超过最佳监督模型的自监督转移学习方法。

Dec, 2019

SViTT: 稀疏视频文本 Transformer 的时间学习

通过引入边缘稀疏性和节点稀疏性的 SViTT 稀疏视频文本架构可以以较低的成本进行多帧推理，优于朴素变压器基线，并对多个视频文本检索和问答基准进行了训练，以及在更长的片段长度下是针对模型稀疏性（sparsity）进行了培训。

Apr, 2023

通过视频旋转预测进行自监督空时特征学习

本文提出了 3DRotNet，一种全自我监管的方法，用于从未标记的视频中学习空间时间特征来提高视频理解任务的性能

Nov, 2018

自我监督视觉变换器是不完善标签的高效分割学习器

通过冻结自监督视觉变换器（SSVT）主干并训练轻量级分割头，我们展示了一种成本效益的语义分割方法。通过利用不完美的标签，我们的方法提高了对标签缺陷的鲁棒性，对于各种注释类型，包括涂鸦、点层和图像层标签，在现有方法上展现了显著的性能改进。这项研究突出了自监督视觉变换器在处理不完美标签方面的有效性，为语义分割提供了实用且高效的解决方案，同时降低了注释成本。通过大量实验，我们确认我们的方法在所有类型的不完美标签上优于基准模型，特别在基于零样本视觉语言模型的标签下，相对于基准模型展现了 11.5% 的性能提升。

Jan, 2024

不再取巧：实现时间自监督的潜力

我们提出了更具挑战性的帧级自我监督任务和有效的增强策略，通过增加 Transformer 模型来训练从对比学习中预训练的单帧视频表示，大幅提升了通过时间自我监督学习到的特征的质量，并且在高水平语义任务和低水平时序任务上表现出卓越的性能。

Dec, 2023