MaskViT: 视频预测的掩蔽视觉预训练

Jun, 2022

MaskViT: 视频预测的掩蔽视觉预训练

MaskViT: Masked Visual Pre-Training for Video Prediction

Agrim Gupta, Stephen Tian, Yunzhi Zhang, Jiajun Wu, Roberto Martín-Martín...

TL;DR本研究展示通过基于遮蔽视觉建模的 Transformer 预训练可以创建良好的视频预测模型，且仅需最少领域知识即可赋予具有强大预测模型的实体智能体。

Abstract

The ability to predict future visual observations conditioned on past observations and motor commands can enable embodied agents to plan solutions to a variety of tasks in complex environments. This work shows that we can create good video prediction models by pre-training

video prediction transformers masked visual modeling spatial attention spatiotemporal attention

发现论文，激发创造

HiViT: 分层视觉 Transformer 遇见掩蔽图像建模

本文提出了一种名为 HiViT 的分层视觉转换器的设计，该设计在 MIM 中具有高效性和良好的性能，通过关闭 Swim Transformer 的局部对单元操作并显示层次结构，将蒙版单元序列化为普通视觉变换器，经实证研究表明，在 ImageNet-1K 上运行 MAE，HiViT-B 相对于 ViT-B 的准确率提高了 0.6％，比 Swin-B 快了 1.9 倍，表现提高泛化到检测和分割等下游任务。

May, 2022

VIMPAC: 基于掩码预测和对比学习的视频预训练

该研究基于预测任务以及块状掩码策略，提出一种输入处理策略及无数据扩充方法，以达到在 SSV2、Diving48 等视频理解数据集上实现最先进效果的目的，并对模型伸缩性和预训练方法进行了详细分析。

Jun, 2021

VIOLET: 基于端到端视频 - 语言变换器的遮蔽视觉令牌建模

VIOLET 是一个采用视频变换器来显式建模视频输入的全尺寸端到端视频语言变换器，通过设计一个新的预训练任务 Masked Visual-token Modeling（MVM）进行更好的视频建模，综合分析证明了其显式时间建模和 MVM 的有效性，取得了 5 种视频问答任务和 4 种文本到视频检索任务的最新最好性能。

Nov, 2021

视觉 Transformer 预训练中遮蔽和置换视觉令牌的学习

本研究提出了一种名为 MaPeT 的新型自监督预训练方法，旨在提高基于视觉任务的性能并解决输入噪声和不一致性问题，实验结果表明其在 ImageNet 数据集上具有与竞争对手相媲美的性能。

Jun, 2023

MAGVIT: 掩码生成式视频变换器

本研究提出了 MAgVIT，通过 3D 分词器对视频进行量化并通过视频掩码令牌建模进行多任务学习，展示了 MAgVIT 在视频生成任务中的质量、效率和灵活性，且支持多种生成任务。

Dec, 2022

CNN 还是 ViT？透过卷积再探视觉 Transformer

本研究提出了一种新颖的高斯混合蒙版（GMM）方法，在没有预训练的情况下通过改进局部建模的方式来提升 Vision Transformer（ViT）在小数据集上的性能，实验证明该方法对于提升 ViT 的效果显著，几乎不增加额外参数或计算成本。

Sep, 2023

MVP: 多模态引导的视觉预训练

本文介绍了一种名为 Multimodality-guided Visual Pre-training (MVP) 的方法，该方法利用来自其他几个模态的指导信息对图像进行预训练，取代了 Vision Transformer 中的 tokenizer，并在一系列下游视觉识别任务中取得了显著优越的效果。

Mar, 2022

使用遮蔽视觉建模的端到端视频 - 语言变压器的实证研究

本文系统研究了遮蔽视觉建模（MVM）在视频 - 语言（VidL）预训练中的应用，基于全面的端到端 VIdeO-LanguagE 变换器（VIOLET），提出了 8 种不同的 MVM 重构目标，从低级像素值到高级深度图、光流和潜在的视觉特征。实验结果表明，使用 MVM 目标进行预训练可以显著提高 VIOLETv2 模型的性能。

Sep, 2022

通过掩码微调来弥合标记剪枝和完全预训练之间的差距

采用蒙版微调为动态视觉转换器的静态预训练基础模型提供更好的初始化，以提高准确性并增强其对遮挡的鲁棒性和对信息丢失的抵抗能力。

Oct, 2023

使用遮蔽图像建模发挥纯 Transformer 视觉模型在目标检测中的作用

本文提出了 MIMDet 检测器，采用预处理的 ViT 编码器作为检测器基础，通过嵌入卷积中间特征构建多尺度表示，最终结果比采用较为保守微调的 ViT 检测器在 COCO 上优于 2.5 个盒子 AP 和 2.6 个掩码 AP，并且收敛速度更快。

Apr, 2022