如何理解掩蔽自编码器
本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器,通过实现以两种核心设计为基础的 MAE 方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并 Transfer Learning 具有出色的性能。
Nov, 2021
本研究通过理论模型的建立及实验验证,提供了在 Masked autoencoder 框架下自监督学习的一些理论解释,并说明了其潜在局限性与未来改进方向。
Jun, 2023
利用注重对象的重建过程来指导复原能力的建议,通过在损失函数中利用场景的注意力图获取的注意力图,提供更多的重建相关对象的强调,从而激励模型学习更加注重对象的表示,同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力,同时使 ViTs 对不同背景更加稳健。
Feb, 2024
通过对编码器 - 解码器架构以及局部对比学习的分析,本文探索了 Masked AutoEncoder 的机制,并将其改进为一种局部区域级对比学习形式,为改进自监督学习框架提供了更全面和灵活的解释。
Oct, 2023
本文是针对掩膜自编码器在自监督学习中扮演的角色所做的综述,着重于介绍其在视觉模式识别领域中的应用,包括历史发展、最新进展以及对各种应用的影响。
Jul, 2022
提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE,应用于手术视频领域的自监督学习,证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。
May, 2023
研究了 Masked Autoencoders 在视频方面的应用,支持在没有时空归纳偏差的情况下,使用随机遮挡进行自编码器学习,观察到高比例遮挡可提高速度和表现,可以成为无监督学习的方法。
May, 2022
本文研究了基于图像的 Masked Autoencoder(MAE)的简单扩展,用于从音频频谱图进行自监督表示学习,并提出了 Audio-MAE 模型,该模型利用 Transformer 编码器 - 解码器设计,使用高掩蔽率编码音频频谱图,通过仅馈送非遮蔽记号通过编码器层,解码器则重新组织和解码编码器产生的上下文,以重构输入谱图。在六个音频和语音分类任务中,Audio-MAE 都表现出最先进的性能,超过了使用外部监督预训练的其他最新模型.
Jul, 2022
本文提出了一种 Semantic-Guided Masking 策略,通过引入语义部分将语义信息集成到 MAE 训练过程中,以学习更好的图像表示。该训练方法在各种视觉任务中都可以表现出色,特别是在 ImageNet-1k 中实现了 84.5% 的细调准确度,比基本 MAE 高 1.4%。
Jun, 2022
本文介绍了一种基于 MAE 的扩展方法,通过引入感知相似度项和采用来自生成对抗网络领域的多级训练和自适应鉴别器增强等技巧,可以更好地重构像素并学习到更高级别的场景特征,进而在不使用其他预训练模型或数据的情况下,提高了图片分类等下游任务的性能,并在 ImageNet-1K 数据集上达到了 78.1% 的准确率。
Dec, 2022