VideoMAC: 视频蒙版自动编码器与卷积神经网络相遇
本文介绍使用 ConvMAE 框架对 Vision Transformers 进行特征预训练和 Masked Auto-Encoder 技术的引入,提高了其在各种视觉任务中的表现。而使用 masked convolution 和直接监督卷积层的 features 等方法,可以在保证计算效率的同时提高了分类和检测的准确率。
May, 2022
本文介绍了链接蒙版自动编码器(CatMAE)作为自我监督视频表示学习的时空学习器,该方法使模型能够估计可见补丁之间的运动信息,匹配前后帧之间的对应关系,并最终学习场景的演变。此外,还提出了一种新的数据增强策略,ViRe,进一步鼓励模型利用连续运动细节和对应关系来完成重建,从而增强模型的能力。与最先进的预训练方法相比,CatMAE 在视频分割任务和动作识别任务中取得了领先水平。
Nov, 2023
本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题,并通过适当的视频屏蔽达到了良好的表现,进而证明数据质量对 SSVP 更加重要。
Mar, 2022
从多视角捕获的视频可以帮助感知世界的 3D 结构,并对计算机视觉任务,如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法,通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器(MAE)框架,在同视角解码器的基础上,引入了一个独立的交叉视角解码器,利用交叉注意机制从源视角视频重构目标视角视频,以获得对视角变化具有鲁棒性的表示。针对视频,静态区域可以简单地进行重构,这限制了学习有意义表示的能力。为此,我们引入了一种动态加权重构损失来改进时间建模。我们在 NTU-60、NTU-120 和 ETRI 数据集上报告了最先进的结果,并在 NUCLA、PKU-MMD-II 和 ROCOG-v2 数据集上进行了迁移学习设置,证明了我们方法的鲁棒性。我们将提供代码。
Jan, 2024
通过结合视听信息,我们提出了 AV-MaskEnhancer 方法来学习高质量的视频表示,解决了从低分辨率和模糊的原始视频中提取特征的挑战,并在 UCF101 数据集上的视频分类任务中取得了 98.8% 的 top-1 准确率和 99.9% 的 top-5 准确率,超越了现有工作并达到了最先进水平。
Sep, 2023
本文介绍了使用视频掩码自编码器(VideoMAE)进行可扩展和一般自监督预训练,用于构建视频基础模型和在各种下游任务中取得新的最先进表现的新方法。
Mar, 2023
本文提出了基于 SiamMAE 的 Siamese Masked Autoencoders 方法,使用视频学习视觉对应关系,通过对大量补丁进行遮罩,鼓励网络集中学习运动对象和学习以对象为中心的表示。该方法可以在不依赖数据增强或用于防止表示崩溃的手工制作跟踪先兆任务或其他技术的情况下,实现与先前的自我监督方法相比更好的表现。
May, 2023
本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器,通过实现以两种核心设计为基础的 MAE 方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并 Transfer Learning 具有出色的性能。
Nov, 2021
本文提出了一种简单而有效的视频 - 语言预训练框架,用于视频 - 文本检索任务,并采用掩蔽对比视频 - 语言预训练进行了优化,以提高预训练效率和性能,并实现了与图像 - 文本检索任务的竞争结果。
Dec, 2022
该研究提出 Masked Action Recognition (MAR) 方法来实现视频的行为识别,该方法可减少 ViT 的计算成本,并通过蒙版视频建模和桥接分类器来辅助实现。
Jul, 2022