掩码自编码器在视觉和其他领域的自监督学习中的调查
本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器,通过实现以两种核心设计为基础的 MAE 方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并 Transfer Learning 具有出色的性能。
Nov, 2021
通过将 Masked Auto-Encoder(MAE)作为一个统一的、与模态无关的自监督学习框架,通过元学习对其进行解读,并从统一提高其在不同模态下的自监督学习的动机出发,我们提出了 MetaMAE。我们的关键思想是将 MAE 的掩码重构视为元学习任务,并通过未掩码标记的变换器元学习的涉及来预测掩码令牌。基于这个新颖的解读,我们提出了集成两种先进的元学习技术的方法。首先,我们使用基于梯度的元学习来适应变换器编码器的平均潜在因素以增强重构。然后,我们通过任务对比学习来最大化平均化和适应化潜在因素之间的对齐,从而指导变换器编码器更好地编码任务特定的知识。我们的实验证明了 MetaMAE 在与模态无关的自监督学习基准(称为 DABS)中的优越性,明显优于之前的基线。
Oct, 2023
利用注重对象的重建过程来指导复原能力的建议,通过在损失函数中利用场景的注意力图获取的注意力图,提供更多的重建相关对象的强调,从而激励模型学习更加注重对象的表示,同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力,同时使 ViTs 对不同背景更加稳健。
Feb, 2024
本文提出了一种基于掩蔽自监督学习框架 GraphMAE2,利用多视角随机重新覆盖解码策略和潜在表示预测策略,并通过广泛的实验表明其在各种公共数据集上始终产生顶级结果。
Apr, 2023
通过引入 Forecast-MAE,一种专为自我监督学习运动预测任务设计的掩模自编码器框架的扩展,利用标准 Transformer 块以及最小的内在偏差,我们在具有挑战性的 Argoverse 2 运动预测基准测试上进行的实验表明,Forecast-MAE 取得了与依赖于监督学习和复杂设计的最先进方法竞争性的性能,并且明显优于以前的自我监督学习方法。
Aug, 2023
提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE,应用于手术视频领域的自监督学习,证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。
May, 2023
本文提出了一种名为 SdAE 的简单自蒸馏掩码自编码器网络,该网络具有带有编码器 - 解码器结构的学生分支来重构缺失信息,以及产生蒸馏编码代码本的老师分支。通过分析信息瓶颈,提出了一种构建良好视图以产生潜在表示的方法,并使用多重蒙版策略来提供平衡信息的多个蒙版视图,以增强性能。
Jul, 2022
本研究通过理论模型的建立及实验验证,提供了在 Masked autoencoder 框架下自监督学习的一些理论解释,并说明了其潜在局限性与未来改进方向。
Jun, 2023