LoMAE:低剂量 CT 去噪的低层次视觉遮蔽自编码器
利用注重对象的重建过程来指导复原能力的建议,通过在损失函数中利用场景的注意力图获取的注意力图,提供更多的重建相关对象的强调,从而激励模型学习更加注重对象的表示,同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力,同时使 ViTs 对不同背景更加稳健。
Feb, 2024
Multi-level Optimized Mask Autoencoder (MLO-MAE) is a novel framework for visual representation learning that leverages end-to-end feedback from downstream tasks to learn an optimal masking strategy during pretraining, demonstrating remarkable improvements in adaptability and efficiency compared to existing methods.
Feb, 2024
提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE,应用于手术视频领域的自监督学习,证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。
May, 2023
通过对编码器 - 解码器架构以及局部对比学习的分析,本文探索了 Masked AutoEncoder 的机制,并将其改进为一种局部区域级对比学习形式,为改进自监督学习框架提供了更全面和灵活的解释。
Oct, 2023
我们提出了一种自我监督学习框架,称为 “长程上下文化蒙版自编码器(LC-MAE)”,该方法能够有效地利用全局上下文理解视觉表示,同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示,LC-MAE 能够学习到更具有区分性的表示,从而在 ImageNet-1K 上使用 ViT-B 实现了 84.2% 的 top-1 准确率,比基准模型提高了 0.6%。LC-MAE 在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升,并在多个鲁棒性评估指标上均取得了优异的结果。
Oct, 2023
本文介绍使用 ConvMAE 框架对 Vision Transformers 进行特征预训练和 Masked Auto-Encoder 技术的引入,提高了其在各种视觉任务中的表现。而使用 masked convolution 和直接监督卷积层的 features 等方法,可以在保证计算效率的同时提高了分类和检测的准确率。
May, 2022
我们提出了一种基于课程学习的掩模自编码器(CL-MAE),通过不断增加自监督重建任务的复杂性,逐渐提高模型学习更复杂和可转移的表示能力,并使用 Curriculum-Learned Masked Autoencoder (CL-MAE) 在 ImageNet 数据集上进行训练,通过在五个下游任务上的实证结果验证了我们的猜想,展示了课程学习在自监督掩模自编码器中的成功应用。
Aug, 2023
Contrastive Masked Autoencoders (CMAE) is a new self-supervised pre-training method that unifies contrastive learning (CL) and masked image model (MIM) for learning more powerful visual representation, achieving state-of-the-art results on image classification, semantic segmentation, and object detection tasks.
Jul, 2022
该论文提出了一种基于标签自动编码器的像素级别完整方法,通过融合策略实现图片修补,并且采用了图像补丁补充算法,取得了较好的语义分割结果。
Nov, 2022
提出了一种自监督的新方法,叫做 Denoising Masked AutoEncoders,可以通过加入高斯噪声和随机掩蔽来训练生成原始图像的编码器 - 解码器模型。使用该模型作为基分类器,能够显著提高下游分类任务的性能,并且在 ImageNet 数据集上建立了新的最先进结果。
Oct, 2022