领域引导的遮蔽自编码器用于独特玩家识别
我们提出了一种运动引导的掩蔽算法 (MGM),通过利用运动矢量来引导每个掩蔽的位置,从而更高效地利用视频显著性,与先前的最先进方法相比,在两个具有挑战性的大规模视频基准 (Kinetics-400 和 Something-Something V2) 中,我们为视频 MAE 提供了 MGM 中的关键装备,并取得了高达 +1.3% 的改进。此外,我们的 MGM 只使用了最多 66% 的训练时期,就可以获得与先前的视频 MAE 相等的性能。最后,我们展示了 MGM 在 UCF101、HMDB51 和 Diving48 数据集上对下游迁移学习和领域自适应任务的更好泛化能力,与基线方法相比,取得了高达 +4.9% 的改进。
Aug, 2023
本文介绍了一种新的视频自编码方法,采用运动引导的掩模策略,通过引入运动信息建立时间一致的掩模体积,从而提高视频自编码的性能。通过实验证明,该方法在视频预训练中能够更有效地处理时间一致性和信息泄漏问题。
Aug, 2023
我们提出了一个简洁而有效的预训练框架,名为 PersonMAE,通过引入两个核心设计到遮挡自编码器中,以更好地为 Person Re-ID 任务提供服务,并在四个下游任务中实现了最先进的性能。
Nov, 2023
利用注重对象的重建过程来指导复原能力的建议,通过在损失函数中利用场景的注意力图获取的注意力图,提供更多的重建相关对象的强调,从而激励模型学习更加注重对象的表示,同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力,同时使 ViTs 对不同背景更加稳健。
Feb, 2024
本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题,并通过适当的视频屏蔽达到了良好的表现,进而证明数据质量对 SSVP 更加重要。
Mar, 2022
该研究旨在研究在视频上使用掩蔽自动编码器(MAE)进行预训练,从而实现针对视觉对象跟踪(VOT)和视频对象分割(VOS)等基于匹配的下游任务。所提出的 DropMAE 是一种强大的高效的时间匹配学习器,在与 ImageNet-based MAE 相比较有着相同的表现,且其预培训速度更快。同时,该研究发现,先验于 DropMAE 中应用的视频的运动多样性比场景多样性对于提高 VOT 和 VOS 的性能更加重要。
Apr, 2023
提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE,应用于手术视频领域的自监督学习,证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。
May, 2023
研究了 Masked Autoencoders 在视频方面的应用,支持在没有时空归纳偏差的情况下,使用随机遮挡进行自编码器学习,观察到高比例遮挡可提高速度和表现,可以成为无监督学习的方法。
May, 2022
从多视角捕获的视频可以帮助感知世界的 3D 结构,并对计算机视觉任务,如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法,通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器(MAE)框架,在同视角解码器的基础上,引入了一个独立的交叉视角解码器,利用交叉注意机制从源视角视频重构目标视角视频,以获得对视角变化具有鲁棒性的表示。针对视频,静态区域可以简单地进行重构,这限制了学习有意义表示的能力。为此,我们引入了一种动态加权重构损失来改进时间建模。我们在 NTU-60、NTU-120 和 ETRI 数据集上报告了最先进的结果,并在 NUCLA、PKU-MMD-II 和 ROCOG-v2 数据集上进行了迁移学习设置,证明了我们方法的鲁棒性。我们将提供代码。
Jan, 2024
本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器,通过实现以两种核心设计为基础的 MAE 方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并 Transfer Learning 具有出色的性能。
Nov, 2021