注视所见:不需重建的遮蔽图像建模
本文展示掩码自动编码器(MAE)是可扩展的自监督计算机视觉学习器, 通过实现以两种核心设计为基础的MAE方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并Transfer Learning具有出色的性能。
Nov, 2021
本研究提出一种基于模型对模糊图像的建模方法,即上下文自编码器(CAE),用于自我监督的表示预训练,其中引入了一种对齐约束,以使从可见补丁中预测的表示在编码表示空间中进行排列。相比之前的MIM方法,我们的方法利于表示学习和下游任务的进行。通过在语义分割和物体检测和实例分割等下游任务中表现,我们证明了我们的CAE的有效性。
Feb, 2022
本研究通过可视化和实验的角度比较了遮蔽图像模型(MIM)和长期优势的监督式预训练模型的关键表现差异,发现MIM可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性,从而在较弱语义或细粒度分类任务中表现出色。
May, 2022
本文提出了一种统一的视角,针对现有方法进行了修订,并引入了一种名为MaskDistill的简单而有效的方法,通过对受损输入图像的屏蔽位置的主题模型重新构建归一化语义特征,以解决大规模训练视觉转换器中需要大量标记的问题,实验结果表明,MaskDistill在图像分类和语义分割方面的表现优于现有技术。
Oct, 2022
本文介绍了一种名为i-MAE的简单而有效的可解释MAE (Interpretable MAE)框架,通过在CIFAR-10/100,Tiny-ImageNet和ImageNet-1K数据集上进行广泛实验,证明其是解释MAE框架行为的优秀设计,并提供了更好的表示能力。
Oct, 2022
本文提出了一种Masked Image Modeling(MIM)的改进方案,通过在多个不同尺度的层次上进行重构任务,显式地指导多个层次的编码器,在减小预训练负担的同时,在分类、检测和分割任务中取得可比或更好的性能。
Mar, 2023
本研究通过理论模型的建立及实验验证,提供了在Masked autoencoder框架下自监督学习的一些理论解释,并说明了其潜在局限性与未来改进方向。
Jun, 2023
我们提出了一种基于课程学习的掩模自编码器(CL-MAE),通过不断增加自监督重建任务的复杂性,逐渐提高模型学习更复杂和可转移的表示能力,并使用Curriculum-Learned Masked Autoencoder (CL-MAE)在ImageNet数据集上进行训练,通过在五个下游任务上的实证结果验证了我们的猜想,展示了课程学习在自监督掩模自编码器中的成功应用。
Aug, 2023
我们提出了一个语义增强的视觉-语言预训练模型,通过引入局部语义增强方法和文字引导的遮蔽策略,实现了跨模态语义对齐,在多个下游视觉-语言任务中取得了最先进或有竞争力的性能。
Mar, 2024
本研究调查了遮罩图像建模(MIM)这一强大的自监督学习技术在计算机视觉中的最新研究进展。通过对重构和对比学习两种实现MIM的方式进行分类,我们不仅构建了一个全面的分类法,并审查了近年来的重要论文,还识别了研究空白并提出了未来研究的多个方向。
Aug, 2024