自监督表示学习的上下文自编码器
本文展示掩码自动编码器(MAE)是可扩展的自监督计算机视觉学习器, 通过实现以两种核心设计为基础的MAE方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并Transfer Learning具有出色的性能。
Nov, 2021
本文提出了一种名为SdAE的简单自蒸馏掩码自编码器网络,该网络具有带有编码器-解码器结构的学生分支来重构缺失信息,以及产生蒸馏编码代码本的老师分支。通过分析信息瓶颈,提出了一种构建良好视图以产生潜在表示的方法,并使用多重蒙版策略来提供平衡信息的多个蒙版视图,以增强性能。
Jul, 2022
本文介绍了一种名为i-MAE的简单而有效的可解释MAE (Interpretable MAE)框架,通过在CIFAR-10/100,Tiny-ImageNet和ImageNet-1K数据集上进行广泛实验,证明其是解释MAE框架行为的优秀设计,并提供了更好的表示能力。
Oct, 2022
本研究通过理论模型的建立及实验验证,提供了在Masked autoencoder框架下自监督学习的一些理论解释,并说明了其潜在局限性与未来改进方向。
Jun, 2023
我们提出了一种基于课程学习的掩模自编码器(CL-MAE),通过不断增加自监督重建任务的复杂性,逐渐提高模型学习更复杂和可转移的表示能力,并使用Curriculum-Learned Masked Autoencoder (CL-MAE)在ImageNet数据集上进行训练,通过在五个下游任务上的实证结果验证了我们的猜想,展示了课程学习在自监督掩模自编码器中的成功应用。
Aug, 2023
我们提出了一种自我监督学习框架,称为“长程上下文化蒙版自编码器(LC-MAE)”,该方法能够有效地利用全局上下文理解视觉表示,同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示,LC-MAE能够学习到更具有区分性的表示,从而在ImageNet-1K上使用ViT-B实现了84.2%的top-1准确率,比基准模型提高了0.6%。LC-MAE在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升,并在多个鲁棒性评估指标上均取得了优异的结果。
Oct, 2023
通过将MIM集成到现有的监督训练方法中,我们设计了一种简单而有效的方案,通过在视觉转换图像编码器上添加一个浅层的基于Transformer的解码器,并引入一个基于遮蔽图像输入的MIM任务,来改善下游任务的学习表示质量,如分类、图像检索和语义分割。
Dec, 2023
我们重新审视了遮蔽自编码器(MAE)解码机制中的区块间依赖关系,并将此解码机制分解为自注意力和交叉注意力。我们的研究表明,区块之间的自注意力对于学习良好的表示并非必要。基于此,我们提出了一种新颖的预训练框架:交叉注意力遮蔽自编码器(CrossMAE)。CrossMAE的解码器只利用遮蔽和可见标记之间的交叉注意力,而不会降低下游性能。这种设计还可以只解码一小部分遮蔽标记,提高效率。此外,每个解码器块现在可以利用不同的编码器特征,从而改善表示学习。与MAE相比,CrossMAE在解码计算上只需2.5到3.7倍的计算量,并在相同计算量下超越了ImageNet分类和COCO实例分割的MAE性能。
Jan, 2024
Multi-level Optimized Mask Autoencoder (MLO-MAE) is a novel framework for visual representation learning that leverages end-to-end feedback from downstream tasks to learn an optimal masking strategy during pretraining, demonstrating remarkable improvements in adaptability and efficiency compared to existing methods.
Feb, 2024
本研究调查了遮罩图像建模(MIM)这一强大的自监督学习技术在计算机视觉中的最新研究进展。通过对重构和对比学习两种实现MIM的方式进行分类,我们不仅构建了一个全面的分类法,并审查了近年来的重要论文,还识别了研究空白并提出了未来研究的多个方向。
Aug, 2024