高斯屏蔽自编码器
本文展示掩码自动编码器(MAE)是可扩展的自监督计算机视觉学习器, 通过实现以两种核心设计为基础的MAE方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并Transfer Learning具有出色的性能。
Nov, 2021
本研究提出一种基于模型对模糊图像的建模方法,即上下文自编码器(CAE),用于自我监督的表示预训练,其中引入了一种对齐约束,以使从可见补丁中预测的表示在编码表示空间中进行排列。相比之前的MIM方法,我们的方法利于表示学习和下游任务的进行。通过在语义分割和物体检测和实例分割等下游任务中表现,我们证明了我们的CAE的有效性。
Feb, 2022
研究了 Masked Autoencoders 在视频方面的应用,支持在没有时空归纳偏差的情况下,使用随机遮挡进行自编码器学习,观察到高比例遮挡可提高速度和表现,可以成为无监督学习的方法。
May, 2022
本文是针对掩膜自编码器在自监督学习中扮演的角色所做的综述,着重于介绍其在视觉模式识别领域中的应用,包括历史发展、最新进展以及对各种应用的影响。
Jul, 2022
本文介绍了一种基于MAE的扩展方法,通过引入感知相似度项和采用来自生成对抗网络领域的多级训练和自适应鉴别器增强等技巧,可以更好地重构像素并学习到更高级别的场景特征,进而在不使用其他预训练模型或数据的情况下,提高了图片分类等下游任务的性能,并在ImageNet-1K数据集上达到了78.1%的准确率。
Dec, 2022
我们提出了一种基于课程学习的掩模自编码器(CL-MAE),通过不断增加自监督重建任务的复杂性,逐渐提高模型学习更复杂和可转移的表示能力,并使用Curriculum-Learned Masked Autoencoder (CL-MAE)在ImageNet数据集上进行训练,通过在五个下游任务上的实证结果验证了我们的猜想,展示了课程学习在自监督掩模自编码器中的成功应用。
Aug, 2023
我们提出了一种自我监督学习框架,称为“长程上下文化蒙版自编码器(LC-MAE)”,该方法能够有效地利用全局上下文理解视觉表示,同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示,LC-MAE能够学习到更具有区分性的表示,从而在ImageNet-1K上使用ViT-B实现了84.2%的top-1准确率,比基准模型提高了0.6%。LC-MAE在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升,并在多个鲁棒性评估指标上均取得了优异的结果。
Oct, 2023
通过引入一种简单而有效的与数据无关的方法ColorMAE,通过过滤随机噪声生成不同的二进制掩码模式,该方法无需额外的可学习参数或计算开销,显着提升了所学习的表示,与随机掩码相比,在下游任务中取得了明显的优势,特别是在语义分割任务中,相对于基线MAE实现提升了2.72的mIoU。
Jul, 2024