ConvNeXt V2: 使用遮蔽式自编码器共同设计和扩展 ConvNets
本文介绍使用 ConvMAE 框架对 Vision Transformers 进行特征预训练和 Masked Auto-Encoder 技术的引入,提高了其在各种视觉任务中的表现。而使用 masked convolution 和直接监督卷积层的 features 等方法,可以在保证计算效率的同时提高了分类和检测的准确率。
May, 2022
这篇论文介绍了一种名为 VideoMAC 的新方法,结合了对视频帧进行对称遮罩的视频自编码器和资源友好的 ConvNets,以及一种称为 MVM 的简单而有效的遮罩视频建模方法,通过在下游任务中的表现超过了基于 ViT 的方法。
Feb, 2024
Contrastive Masked Autoencoders (CMAE) is a new self-supervised pre-training method that unifies contrastive learning (CL) and masked image model (MIM) for learning more powerful visual representation, achieving state-of-the-art results on image classification, semantic segmentation, and object detection tasks.
Jul, 2022
本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器,通过实现以两种核心设计为基础的 MAE 方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并 Transfer Learning 具有出色的性能。
Nov, 2021
通过高内容显微镜筛选从细胞表型中推断生物关系在生物研究中提供了重要的机遇和挑战。该研究探讨了在更大数据集上训练更大模型时,弱监督和自监督深度学习方法的可扩展性。结果显示,基于 CNN 和 ViT 的掩蔽自编码器在表型推断方面明显优于弱监督模型。在我们的尺度上限,通过来自 9500 万显微镜图像的 35 亿个独特裁剪样本训练的 ViT-L/8 相对于从公共数据库中整理的已知生物关系的最佳弱监督模型的相对改善率达到了 28%。
Sep, 2023
利用注重对象的重建过程来指导复原能力的建议,通过在损失函数中利用场景的注意力图获取的注意力图,提供更多的重建相关对象的强调,从而激励模型学习更加注重对象的表示,同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力,同时使 ViTs 对不同背景更加稳健。
Feb, 2024
提出了一种基于遮蔽自编码器的新型神经架构搜索(NAS)框架,该框架在搜索过程中不需要标记数据。通过用图像重构任务替代监督学习目标,我们的方法能够在不损害性能和泛化能力的情况下,有效地发现网络架构。此外,我们通过引入多尺度解码器来解决在无监督范式中广泛使用的 Differentiable Architecture Search(DARTS)方法遇到的性能崩溃问题。通过在不同的搜索空间和数据集上进行大量实验证明了所提方法的有效性和鲁棒性,并提供了其优于基线方法的经验证据。
Nov, 2023
本文是针对掩膜自编码器在自监督学习中扮演的角色所做的综述,着重于介绍其在视觉模式识别领域中的应用,包括历史发展、最新进展以及对各种应用的影响。
Jul, 2022
我们提出了一种基于课程学习的掩模自编码器(CL-MAE),通过不断增加自监督重建任务的复杂性,逐渐提高模型学习更复杂和可转移的表示能力,并使用 Curriculum-Learned Masked Autoencoder (CL-MAE) 在 ImageNet 数据集上进行训练,通过在五个下游任务上的实证结果验证了我们的猜想,展示了课程学习在自监督掩模自编码器中的成功应用。
Aug, 2023
本研究提出了一种名为 MAE-CT 的序列方法,旨在将最近邻对比学习应用于经过预训练的 MAE 中,以将丰富的特征组成对象语义簇,而无需使用任何标签,并应用于使用大型 Vision Transformer 模型。MAE-CT 在线性探测、k-NN 和少样本分类准确度以及无监督聚类准确度方面与以往的自监督方法相匹配或胜过了以 ImageNet 为训练数据的深度学习方法。
Apr, 2023