遮盖自编码器作为时空学习器
本文提出了一种自适应掩蔽策略 AdaMAE,通过语义上下文采样网络有效地学习高空间时间信息的特征,达到更好的分类效果和更快的预训练速度。
Nov, 2022
本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器,通过实现以两种核心设计为基础的 MAE 方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并 Transfer Learning 具有出色的性能。
Nov, 2021
本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题,并通过适当的视频屏蔽达到了良好的表现,进而证明数据质量对 SSVP 更加重要。
Mar, 2022
提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE,应用于手术视频领域的自监督学习,证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。
May, 2023
该研究旨在研究在视频上使用掩蔽自动编码器(MAE)进行预训练,从而实现针对视觉对象跟踪(VOT)和视频对象分割(VOS)等基于匹配的下游任务。所提出的 DropMAE 是一种强大的高效的时间匹配学习器,在与 ImageNet-based MAE 相比较有着相同的表现,且其预培训速度更快。同时,该研究发现,先验于 DropMAE 中应用的视频的运动多样性比场景多样性对于提高 VOT 和 VOS 的性能更加重要。
Apr, 2023
我们提出了一种运动引导的掩蔽算法 (MGM),通过利用运动矢量来引导每个掩蔽的位置,从而更高效地利用视频显著性,与先前的最先进方法相比,在两个具有挑战性的大规模视频基准 (Kinetics-400 和 Something-Something V2) 中,我们为视频 MAE 提供了 MGM 中的关键装备,并取得了高达 +1.3% 的改进。此外,我们的 MGM 只使用了最多 66% 的训练时期,就可以获得与先前的视频 MAE 相等的性能。最后,我们展示了 MGM 在 UCF101、HMDB51 和 Diving48 数据集上对下游迁移学习和领域自适应任务的更好泛化能力,与基线方法相比,取得了高达 +4.9% 的改进。
Aug, 2023
本文介绍了链接蒙版自动编码器(CatMAE)作为自我监督视频表示学习的时空学习器,该方法使模型能够估计可见补丁之间的运动信息,匹配前后帧之间的对应关系,并最终学习场景的演变。此外,还提出了一种新的数据增强策略,ViRe,进一步鼓励模型利用连续运动细节和对应关系来完成重建,从而增强模型的能力。与最先进的预训练方法相比,CatMAE 在视频分割任务和动作识别任务中取得了领先水平。
Nov, 2023
本文研究了基于图像的 Masked Autoencoder(MAE)的简单扩展,用于从音频频谱图进行自监督表示学习,并提出了 Audio-MAE 模型,该模型利用 Transformer 编码器 - 解码器设计,使用高掩蔽率编码音频频谱图,通过仅馈送非遮蔽记号通过编码器层,解码器则重新组织和解码编码器产生的上下文,以重构输入谱图。在六个音频和语音分类任务中,Audio-MAE 都表现出最先进的性能,超过了使用外部监督预训练的其他最新模型.
Jul, 2022
本研究通过理论模型的建立及实验验证,提供了在 Masked autoencoder 框架下自监督学习的一些理论解释,并说明了其潜在局限性与未来改进方向。
Jun, 2023
利用注重对象的重建过程来指导复原能力的建议,通过在损失函数中利用场景的注意力图获取的注意力图,提供更多的重建相关对象的强调,从而激励模型学习更加注重对象的表示,同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力,同时使 ViTs 对不同背景更加稳健。
Feb, 2024