MaskViT: 视频预测的掩蔽视觉预训练
本文提出了一种名为 HiViT 的分层视觉转换器的设计,该设计在 MIM 中具有高效性和良好的性能,通过关闭 Swim Transformer 的局部对单元操作并显示层次结构,将蒙版单元序列化为普通视觉变换器,经实证研究表明,在 ImageNet-1K 上运行 MAE,HiViT-B 相对于 ViT-B 的准确率提高了 0.6%,比 Swin-B 快了 1.9 倍,表现提高泛化到检测和分割等下游任务。
May, 2022
该研究基于预测任务以及块状掩码策略,提出一种输入处理策略及无数据扩充方法,以达到在 SSV2、Diving48 等视频理解数据集上实现最先进效果的目的,并对模型伸缩性和预训练方法进行了详细分析。
Jun, 2021
VIOLET 是一个采用视频变换器来显式建模视频输入的全尺寸端到端视频语言变换器,通过设计一个新的预训练任务 Masked Visual-token Modeling(MVM)进行更好的视频建模,综合分析证明了其显式时间建模和 MVM 的有效性,取得了 5 种视频问答任务和 4 种文本到视频检索任务的最新最好性能。
Nov, 2021
本研究提出了一种名为 MaPeT 的新型自监督预训练方法,旨在提高基于视觉任务的性能并解决输入噪声和不一致性问题,实验结果表明其在 ImageNet 数据集上具有与竞争对手相媲美的性能。
Jun, 2023
本研究提出了 MAgVIT,通过 3D 分词器对视频进行量化并通过视频掩码令牌建模进行多任务学习,展示了 MAgVIT 在视频生成任务中的质量、效率和灵活性,且支持多种生成任务。
Dec, 2022
本研究提出了一种新颖的高斯混合蒙版(GMM)方法,在没有预训练的情况下通过改进局部建模的方式来提升 Vision Transformer(ViT)在小数据集上的性能,实验证明该方法对于提升 ViT 的效果显著,几乎不增加额外参数或计算成本。
Sep, 2023
本文介绍了一种名为 Multimodality-guided Visual Pre-training (MVP) 的方法,该方法利用来自其他几个模态的指导信息对图像进行预训练,取代了 Vision Transformer 中的 tokenizer,并在一系列下游视觉识别任务中取得了显著优越的效果。
Mar, 2022
本文系统研究了遮蔽视觉建模(MVM)在视频 - 语言(VidL)预训练中的应用,基于全面的端到端 VIdeO-LanguagE 变换器(VIOLET),提出了 8 种不同的 MVM 重构目标,从低级像素值到高级深度图、光流和潜在的视觉特征。实验结果表明,使用 MVM 目标进行预训练可以显著提高 VIOLETv2 模型的性能。
Sep, 2022
本文提出了 MIMDet 检测器,采用预处理的 ViT 编码器作为检测器基础,通过嵌入卷积中间特征构建多尺度表示,最终结果比采用较为保守微调的 ViT 检测器在 COCO 上优于 2.5 个盒子 AP 和 2.6 个掩码 AP,并且收敛速度更快。
Apr, 2022