SMAUG：用于高效视频语言预训练的稀疏掩蔽自编码器

Nov, 2022

SMAUG：用于高效视频语言预训练的稀疏掩蔽自编码器

SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training

Yuanze Lin, Chen Wei, Huiyu Wang, Alan Yuille, Cihang Xie

TL;DR研究报告介绍了一个高效的视频语言模型预训练框架 ——SMAUG，该框架采用掩蔽自编码器、时空标记稀疏模块等多种设计，旨在实现视觉和文本模态之间更好的交叉模态对齐、节省更多的预训练成本，并在多个基准测试上具有极高的性能。

Abstract

video-language pre-training is crucial for learning powerful multi-modal representation. However, it typically requires a massive amount of computation. In this paper, we develop smaug, an efficient pre-training

video-language pre-training smaug masked autoencoders space-time token sparsification text-to-video retrieval

发现论文，激发创造

基于遮挡自编码器的视频无监督预训练技术

本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题，并通过适当的视频屏蔽达到了良好的表现，进而证明数据质量对 SSVP 更加重要。

Mar, 2022

VideoMAE V2: 基于双重蒙版的视频自编码器扩展

本文介绍了使用视频掩码自编码器（VideoMAE）进行可扩展和一般自监督预训练，用于构建视频基础模型和在各种下游任务中取得新的最先进表现的新方法。

Mar, 2023

SurgMAE：用于长时间手术视频分析的遮蔽自编码器

提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE，应用于手术视频领域的自监督学习，证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。

May, 2023

VarMAE: 可变分蒸馏自编码器的预训练，用于领域自适应语言理解

本文提出了一种基于 Transformer 的语言模型 ——VarMAE，通过上下文不确定性学习模块，将限定的语料库转化为平滑的潜在分布，从而为特定领域提供多样性和良好形式的上下文表示，实验证明 VarMAE 在科学和金融领域的 NLU 任务中，可以高效地适应有限资源的新领域。

Nov, 2022

自导向掩蔽自编码器用于领域无关的自我监督学习

Self-guided Masked Autoencoders (SMA) is a fully domain-agnostic masked modeling method for self-supervised learning, achieving state-of-the-art performance without domain-specific knowledge.

Feb, 2024

对比音视频掩码自编码器

本文提出了 CAV-MAE 模型，它将 Masked Auto-Encoder (MAE) 模型从单模态扩展到音频 - 视觉多模态，并结合自监督学习框架中的对比学习和蒙版数据建模两种方法，学习联合和协调的音频 - 视觉表示，并在 VGGSound 数据集中取得了新的 SOTA 准确性，达到了 65.9%。

Oct, 2022

OmniMAE：图像和视频单模型遮蔽预训练

使用遮盖自编码器训练简单的 Vision Transformer，能够在多个视觉模态下获得与单一模态相当或更好的视觉表示，而只需使用单一的预训练模型，大大简化架构并加快训练速度。

Jun, 2022

医学视觉与语言预训练的多模态掩码自编码器

提出了一种基于 M$^3$AE 的自监督学习模型，通过随机遮盖图像和文本中的像素和标记来学习跨模态领域知识的医学视觉语言模型，并在三个任务上实现了最先进水平的结果。

Sep, 2022

遮盖自编码器作为时空学习器

研究了 Masked Autoencoders 在视频方面的应用，支持在没有时空归纳偏差的情况下，使用随机遮挡进行自编码器学习，观察到高比例遮挡可提高速度和表现，可以成为无监督学习的方法。

May, 2022

用于高效视频文本检索的掩码对比预训练

本文提出了一种简单而有效的视频 - 语言预训练框架，用于视频 - 文本检索任务，并采用掩蔽对比视频 - 语言预训练进行了优化，以提高预训练效率和性能，并实现了与图像 - 文本检索任务的竞争结果。

Dec, 2022