孪生掩模自编码器
CropMAE 是一种替代 SiamMAE 的 Siamese 预训练方法,通过仅考虑从同一图像裁剪而来的图像对,而不是从视频中提取的帧对,从而减少了对视频数据集的需求,同时保持了竞争性能,并大幅减少了预训练时间。此外,CropMAE 证明了它能够学习类似的物体中心化表示,而不需要明确的运动,这表明当前的自监督学习方法并不是从运动中学习对象,而是依赖于 Siamese 架构。最后,CropMAE 实现了迄今最高的遮挡比例(98.5%),仅使用两个可见的补丁就能重建图像。
Mar, 2024
该研究论文介绍了 Siamese Masked Conditional Variational Autoencoder(SiamMCVAE)技术,利用基于视觉变换器的孪生编码器的孪生架构。这一创新设计通过捕捉成对帧之间的内在相似性,增强了模型理解丢失内容的能力。SiamMCVAE 能够高效地重建蒙版帧中丢失的元素,通过变分推断有效地解决了由于相机故障引起的问题。实验证明了该模型在恢复缺失信息方面的有效性,从而提高了计算机视觉系统的韧性。在 SiamMCVAE 中引入 Siamese Vision Transformer (SiamViT) 编码器展示了应对计算机视觉领域现实挑战的潜力,增强了自主系统在动态环境中的适应能力。
Jan, 2024
本文提出了一种 Semantic-Guided Masking 策略,通过引入语义部分将语义信息集成到 MAE 训练过程中,以学习更好的图像表示。该训练方法在各种视觉任务中都可以表现出色,特别是在 ImageNet-1k 中实现了 84.5% 的细调准确度,比基本 MAE 高 1.4%。
Jun, 2022
本文介绍了链接蒙版自动编码器(CatMAE)作为自我监督视频表示学习的时空学习器,该方法使模型能够估计可见补丁之间的运动信息,匹配前后帧之间的对应关系,并最终学习场景的演变。此外,还提出了一种新的数据增强策略,ViRe,进一步鼓励模型利用连续运动细节和对应关系来完成重建,从而增强模型的能力。与最先进的预训练方法相比,CatMAE 在视频分割任务和动作识别任务中取得了领先水平。
Nov, 2023
提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE,应用于手术视频领域的自监督学习,证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。
May, 2023
SCE-MAE 是一个高度有效且稳健的框架,在标记数据不可用的情况下,通过使用 MAE 方法、基于特征图进行操作以及使用密度峰聚类算法和局部受限排斥损失来直接提取部分局部对应关系,大幅超越了现有 SOTA 方法约 20%-44% 的地标匹配和约 9%-15% 的地标检测任务。
May, 2024
本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器,通过实现以两种核心设计为基础的 MAE 方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并 Transfer Learning 具有出色的性能。
Nov, 2021
利用注重对象的重建过程来指导复原能力的建议,通过在损失函数中利用场景的注意力图获取的注意力图,提供更多的重建相关对象的强调,从而激励模型学习更加注重对象的表示,同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力,同时使 ViTs 对不同背景更加稳健。
Feb, 2024
在户外点云分割中,基于转换器等先进网络的建模能力受制于标注数据的稀缺性。为了更好地利用点云序列中蕴含的时间信息,本文提出了一种有效的预训练策略,即时序遮蔽自动编码器 (Temporal Masked AutoEncoders, T-MAE),通过输入与时间相关的相邻帧并学习时间依赖关系。T-MAE 预训练策略结合了 SiamWCA 骨干网络,其中包含了孪生编码器和基于窗口的交叉注意力模块 (window-based cross-attention, WCA),用于接收两帧输入。此外,为了提高目标对象的理解能力,时间建模还作为一种稳健且天然的数据增强方法,在同一对象的不同帧之间考虑自车运动改变的照明角度。通过使用遥远的历史帧而非连续帧,可以更加成本有效且强大。在自监督学习方法中,利用 T-MAE 预训练策略在 Waymo 数据集上实现了最佳性能。通过全面实验验证了本提案的所有组成部分。在接受后,源代码将会公开。
Dec, 2023
本文提出了一种自适应掩蔽策略 AdaMAE,通过语义上下文采样网络有效地学习高空间时间信息的特征,达到更好的分类效果和更快的预训练速度。
Nov, 2022