通过感知理解提高视觉表征学习
利用注重对象的重建过程来指导复原能力的建议,通过在损失函数中利用场景的注意力图获取的注意力图,提供更多的重建相关对象的强调,从而激励模型学习更加注重对象的表示,同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力,同时使 ViTs 对不同背景更加稳健。
Feb, 2024
本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器,通过实现以两种核心设计为基础的 MAE 方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并 Transfer Learning 具有出色的性能。
Nov, 2021
本文研究了 Masked Autoencoder 的数据扩增问题,提出了基于同源识别的 Mix Autoencoder 方法,通过自监督预训练可以提升下游视觉任务表现,在 ImageNet、ADE20K 和 COCO 数据集上 outperforms 了 MAE 和 iBOT 的方法。
Mar, 2023
通过对编码器 - 解码器架构以及局部对比学习的分析,本文探索了 Masked AutoEncoder 的机制,并将其改进为一种局部区域级对比学习形式,为改进自监督学习框架提供了更全面和灵活的解释。
Oct, 2023
Contrastive Masked Autoencoders (CMAE) is a new self-supervised pre-training method that unifies contrastive learning (CL) and masked image model (MIM) for learning more powerful visual representation, achieving state-of-the-art results on image classification, semantic segmentation, and object detection tasks.
Jul, 2022
Multi-level Optimized Mask Autoencoder (MLO-MAE) is a novel framework for visual representation learning that leverages end-to-end feedback from downstream tasks to learn an optimal masking strategy during pretraining, demonstrating remarkable improvements in adaptability and efficiency compared to existing methods.
Feb, 2024
本研究通过理论模型的建立及实验验证,提供了在 Masked autoencoder 框架下自监督学习的一些理论解释,并说明了其潜在局限性与未来改进方向。
Jun, 2023
本文提出了一种 Semantic-Guided Masking 策略,通过引入语义部分将语义信息集成到 MAE 训练过程中,以学习更好的图像表示。该训练方法在各种视觉任务中都可以表现出色,特别是在 ImageNet-1k 中实现了 84.5% 的细调准确度,比基本 MAE 高 1.4%。
Jun, 2022
我们提出了一种自我监督学习框架,称为 “长程上下文化蒙版自编码器(LC-MAE)”,该方法能够有效地利用全局上下文理解视觉表示,同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示,LC-MAE 能够学习到更具有区分性的表示,从而在 ImageNet-1K 上使用 ViT-B 实现了 84.2% 的 top-1 准确率,比基准模型提高了 0.6%。LC-MAE 在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升,并在多个鲁棒性评估指标上均取得了优异的结果。
Oct, 2023