VIMPAC: 基于掩码预测和对比学习的视频预训练

Jun, 2021

VIMPAC: 基于掩码预测和对比学习的视频预训练

VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning

Hao Tan, Jie Lei, Thomas Wolf, Mohit Bansal

TL;DR该研究基于预测任务以及块状掩码策略，提出一种输入处理策略及无数据扩充方法，以达到在 SSV2、Diving48 等视频理解数据集上实现最先进效果的目的，并对模型伸缩性和预训练方法进行了详细分析。

Abstract

video understanding relies on perceiving the global content and modeling its internal connections (e.g., causality, movement, and spatio-temporal correspondence). To learn these interactions, we apply a mask-then-predict →

video understanding pre-training task contrastive learning model scalability uncurated videos

发现论文，激发创造

用于高效视频文本检索的掩码对比预训练

本文提出了一种简单而有效的视频 - 语言预训练框架，用于视频 - 文本检索任务，并采用掩蔽对比视频 - 语言预训练进行了优化，以提高预训练效率和性能，并实现了与图像 - 文本检索任务的竞争结果。

Dec, 2022

MaskViT: 视频预测的掩蔽视觉预训练

本研究展示通过基于遮蔽视觉建模的 Transformer 预训练可以创建良好的视频预测模型，且仅需最少领域知识即可赋予具有强大预测模型的实体智能体。

Jun, 2022

VLM: 任务无关的视频语言模型预训练，用于视频理解

提供了一种简化、任务无关的多模态预训练方法，可以接受视频或文本输入，或两者皆可用于各种端任务。实验结果表明，在多种任务中表现出比以前的方法更强的性能，通常优于任务特定的预训练。

May, 2021

Video-LaVIT：统一的视频 - 语言预训练与解耦的视觉 - 运动词汇编

本文介绍了一种用于视频 - 语言预训练的高效视频分解的方法，该方法通过设计良好的分词器将视觉和时间信息离散化为少量的标记，从而使大规模生成式预训练能够统一视频、图像和文本内容。在图像和视频的理解和生成的 13 个多模态基准测试中，我们提出的框架表现出竞争性的性能。

Feb, 2024

VIOLET: 基于端到端视频 - 语言变换器的遮蔽视觉令牌建模

VIOLET 是一个采用视频变换器来显式建模视频输入的全尺寸端到端视频语言变换器，通过设计一个新的预训练任务 Masked Visual-token Modeling（MVM）进行更好的视频建模，综合分析证明了其显式时间建模和 MVM 的有效性，取得了 5 种视频问答任务和 4 种文本到视频检索任务的最新最好性能。

Nov, 2021

视觉 Transformer 预训练中遮蔽和置换视觉令牌的学习

本研究提出了一种名为 MaPeT 的新型自监督预训练方法，旨在提高基于视觉任务的性能并解决输入噪声和不一致性问题，实验结果表明其在 ImageNet 数据集上具有与竞争对手相媲美的性能。

Jun, 2023

高效的视觉 - 语言预训练：基于聚类遮挡

我们提出了一种简单的策略，用于在视觉语言对比学习中遮盖图像补丁，从而提高所学表示的质量和训练速度。该策略随机遮盖视觉上相似的图像补丁群集，并通过强制模型仅根据上下文预测遮盖的视觉结构的单词，提供额外的学习信号，从而超过其他遮盖策略（如 FLIP）在所学表示的质量方面表现良好，并且通过减少每个图像中使用的数据来加速训练。

May, 2024

自监督预训练和对比表征学习在多项选择视频 QA 中的应用

本文介绍了一种新的多项选择视频问题回答（Video QA）的训练方案，其中包括自监督预训练阶段和监督对比学习的辅助学习。在自监督预训练阶段中，我们将原始问题格式进行了转化，以预测相关问题并提供模型更广泛的背景输入。然后，我们在对比学习的主阶段中添加了屏蔽噪声，并通过将正样本映射到受掩输入来改进模型表现。最后，我们采用了本地对齐注意力来更有效地关注相关字幕句子的视频帧。我们的实验结果表明，我们的模型在相关测试集上均取得了最先进的性能，并通过进一步的分析验证了我们的方法。

Sep, 2020

数据高效的事件相机预训练通过解耦蒙版建模

我们提出了一种新的数据高效的基于体素的自监督学习方法，克服了以往方法的局限性，该方法通过预训练克服了通过将事件序列转换为 2D 图像以利用预训练图像模型，或直接使用成对图像数据进行知识蒸馏以增强事件流学习的方法所带来的对时间信息的牺牲。我们的自监督学习方法不依赖于成对的 RGB 图像，且能够在多个尺度上同时探索空间和时间线索，展现出卓越的泛化性能，在各种任务中显著改善参数更少、计算成本更低。

Mar, 2024

MVP: 多模态引导的视觉预训练

本文介绍了一种名为 Multimodality-guided Visual Pre-training (MVP) 的方法，该方法利用来自其他几个模态的指导信息对图像进行预训练，取代了 Vision Transformer 中的 tokenizer，并在一系列下游视觉识别任务中取得了显著优越的效果。

Mar, 2022