OmniMAE:图像和视频单模型遮蔽预训练
提出了一种称为 MultiMAE 的预训练策略,通过掩蔽解决了网络输入多样性和预测任务多样性的问题,从而实现可靠的跨模态与任务预测编码和转移学习。
Apr, 2022
本文研究了利用自监督学习方法从真实世界的机器人任务中的多样化视频图像中进行视觉预训练,在多种机器人任务和实体上表现出了较高效果,并通过在 4.5M 张来自互联网和自怎样视角视频的大规模数据上进行的预训练,展示了对于机器人学习的视觉预培训的规模化提升的好处。
Oct, 2022
本文介绍了使用视频掩码自编码器(VideoMAE)进行可扩展和一般自监督预训练,用于构建视频基础模型和在各种下游任务中取得新的最先进表现的新方法。
Mar, 2023
本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题,并通过适当的视频屏蔽达到了良好的表现,进而证明数据质量对 SSVP 更加重要。
Mar, 2022
本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE),能在不引入偏好于数据增强的对比学习目标的情况下,学习出适用于下游任务的可传递表示,并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练,具有可扩展性和灵活性。
May, 2022
本文介绍使用 ConvMAE 框架对 Vision Transformers 进行特征预训练和 Masked Auto-Encoder 技术的引入,提高了其在各种视觉任务中的表现。而使用 masked convolution 和直接监督卷积层的 features 等方法,可以在保证计算效率的同时提高了分类和检测的准确率。
May, 2022
通过提出一种名为 4M 的多模态训练方案,将文本、图像、几何和语义模态,以及神经网络特征图等多种输入 / 输出模态统一到一个 Transformer 编码器 - 解码器模型中进行训练,论文展示了 4M 在训练多功能且可扩展的视觉基础模型方面的潜力和优势,并为多模态学习在视觉和其他领域的进一步探索提供了基础。
Dec, 2023
从多视角捕获的视频可以帮助感知世界的 3D 结构,并对计算机视觉任务,如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法,通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器(MAE)框架,在同视角解码器的基础上,引入了一个独立的交叉视角解码器,利用交叉注意机制从源视角视频重构目标视角视频,以获得对视角变化具有鲁棒性的表示。针对视频,静态区域可以简单地进行重构,这限制了学习有意义表示的能力。为此,我们引入了一种动态加权重构损失来改进时间建模。我们在 NTU-60、NTU-120 和 ETRI 数据集上报告了最先进的结果,并在 NUCLA、PKU-MMD-II 和 ROCOG-v2 数据集上进行了迁移学习设置,证明了我们方法的鲁棒性。我们将提供代码。
Jan, 2024
本文提出了一种自主监督的共享编码器模型,在数据、内存和运行时效率高的同时,在几个视觉、语言和多模式基准测试中取得了强大结果。
Apr, 2023
本文系统研究了遮蔽视觉建模(MVM)在视频 - 语言(VidL)预训练中的应用,基于全面的端到端 VIdeO-LanguagE 变换器(VIOLET),提出了 8 种不同的 MVM 重构目标,从低级像素值到高级深度图、光流和潜在的视觉特征。实验结果表明,使用 MVM 目标进行预训练可以显著提高 VIOLETv2 模型的性能。
Sep, 2022