DailyMAE:朝着一天内预训练掩膜自编码器
我们提出了一种自我监督学习框架,称为 “长程上下文化蒙版自编码器(LC-MAE)”,该方法能够有效地利用全局上下文理解视觉表示,同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示,LC-MAE 能够学习到更具有区分性的表示,从而在 ImageNet-1K 上使用 ViT-B 实现了 84.2% 的 top-1 准确率,比基准模型提高了 0.6%。LC-MAE 在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升,并在多个鲁棒性评估指标上均取得了优异的结果。
Oct, 2023
提出一种用于 3D 医学图像的新型预训练框架 “Mask in Mask(MiM)”,通过学习来自不同尺度的分层视觉标记的辨别性表示,在器官 / 病变 / 肿瘤分割和疾病分类等任务中展现出 MiM 相对于其他自我监督学习方法的优越性能,此外,大规模预训练数据集的扩展进一步提升了 MiM 在下游任务中的表现。
Apr, 2024
本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题,并通过适当的视频屏蔽达到了良好的表现,进而证明数据质量对 SSVP 更加重要。
Mar, 2022
本文旨在通过在使用 Coyo-700M 数据集进行实验,探究遮蔽图像建模 (MIM) 方法在不同大小和模型的情况下,进行下游任务的表现变化,并发现了 MIM 在训练数据规模较小时提高模型容量的效果、强重构目标能增加模型在下游任务中的容量,以及大多数情况下,MIM 预训练是数据不可知的。这些发现为未来的 MIM 研究提供了有价值的见解。
May, 2023
本文提出了一种名为 SdAE 的简单自蒸馏掩码自编码器网络,该网络具有带有编码器 - 解码器结构的学生分支来重构缺失信息,以及产生蒸馏编码代码本的老师分支。通过分析信息瓶颈,提出了一种构建良好视图以产生潜在表示的方法,并使用多重蒙版策略来提供平衡信息的多个蒙版视图,以增强性能。
Jul, 2022
通过引入 Forecast-MAE,一种专为自我监督学习运动预测任务设计的掩模自编码器框架的扩展,利用标准 Transformer 块以及最小的内在偏差,我们在具有挑战性的 Argoverse 2 运动预测基准测试上进行的实验表明,Forecast-MAE 取得了与依赖于监督学习和复杂设计的最先进方法竞争性的性能,并且明显优于以前的自我监督学习方法。
Aug, 2023
本文是针对掩膜自编码器在自监督学习中扮演的角色所做的综述,着重于介绍其在视觉模式识别领域中的应用,包括历史发展、最新进展以及对各种应用的影响。
Jul, 2022
通过将 Masked Auto-Encoder(MAE)作为一个统一的、与模态无关的自监督学习框架,通过元学习对其进行解读,并从统一提高其在不同模态下的自监督学习的动机出发,我们提出了 MetaMAE。我们的关键思想是将 MAE 的掩码重构视为元学习任务,并通过未掩码标记的变换器元学习的涉及来预测掩码令牌。基于这个新颖的解读,我们提出了集成两种先进的元学习技术的方法。首先,我们使用基于梯度的元学习来适应变换器编码器的平均潜在因素以增强重构。然后,我们通过任务对比学习来最大化平均化和适应化潜在因素之间的对齐,从而指导变换器编码器更好地编码任务特定的知识。我们的实验证明了 MetaMAE 在与模态无关的自监督学习基准(称为 DABS)中的优越性,明显优于之前的基线。
Oct, 2023
本研究通过可视化和实验的角度比较了遮蔽图像模型(MIM)和长期优势的监督式预训练模型的关键表现差异,发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性,从而在较弱语义或细粒度分类任务中表现出色。
May, 2022
本文提出了一种名为 MixMAE 的方法,可以有效地预先训练不同的分层视觉转换器,并取代掩蔽图像建模(MIM)方法,仍然可以对受损图像进行建模,而不会导致训练速度慢和预处理 - 微调不一致性问题。实验结果表明,使用 MixMAE 进行预处理可在各种分层 Transformer 架构上学习高质量的视觉表示。
May, 2022