SRMAE:用于尺度不变深度表示的遮蔽图像建模
本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器,通过实现以两种核心设计为基础的 MAE 方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并 Transfer Learning 具有出色的性能。
Nov, 2021
我们提出了一种自我监督学习框架,称为 “长程上下文化蒙版自编码器(LC-MAE)”,该方法能够有效地利用全局上下文理解视觉表示,同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示,LC-MAE 能够学习到更具有区分性的表示,从而在 ImageNet-1K 上使用 ViT-B 实现了 84.2% 的 top-1 准确率,比基准模型提高了 0.6%。LC-MAE 在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升,并在多个鲁棒性评估指标上均取得了优异的结果。
Oct, 2023
远程感知图像理解中,该研究通过自监督学习的通用框架重新探讨了经典的多尺度表示学习问题,提出了一种基于掩码自编码器(MAE)的 Cross-Scale MAE 自监督模型,通过尺度增强技术以及对比损失和生成损失的交叉尺度一致性约束来确保一致且有意义的表示,进一步利用 xFormers 库在单个 GPU 上加速网络预训练并保持所学表示的质量,实验证明 Cross-Scale MAE 相较于标准 MAE 和其他最先进的远程感知 MAE 方法具有优越的性能。
Jan, 2024
提出了一种空间 - 光谱掩码自编码器 (SS-MAE) 用于高光谱成像和激光雷达 / 合成孔径雷达数据的联合分类,实现了空间和光谱表示的充分利用,并通过在训练阶段添加两个轻量级卷积神经网络来补充局部特征,成功在三个公开数据集上验证了 SS-MAE 相对于其他先进基线方法的优越性。
Nov, 2023
这篇研究介绍了 RS-4M,一个大规模的数据集,用于在遥感图像上进行高效的 Masked Image Modeling(MIM)训练。同时提出了一种名为 SelectiveMAE 的高效 MIM 方法,通过动态编码和重构一部分基于语义丰富性选择的补丁令牌,显著提升了 MIM 模型的训练效率和基线模型的分类、检测和分割性能。
Jun, 2024
本文提出了一种名为 MaskAlign 的高效 MIM 范例,将可视化小片段功能与老师模型提取的整体图像特征相一致,证明即使在掩蔽区域没有重建的情况下,蒙面建模也不会失去效率。与 Dynamic Alignment 相结合,MaskAlign 能够实现高效的最新性能。
Nov, 2022
本文旨在通过在使用 Coyo-700M 数据集进行实验,探究遮蔽图像建模 (MIM) 方法在不同大小和模型的情况下,进行下游任务的表现变化,并发现了 MIM 在训练数据规模较小时提高模型容量的效果、强重构目标能增加模型在下游任务中的容量,以及大多数情况下,MIM 预训练是数据不可知的。这些发现为未来的 MIM 研究提供了有价值的见解。
May, 2023
本文提出了一种名为 SdAE 的简单自蒸馏掩码自编码器网络,该网络具有带有编码器 - 解码器结构的学生分支来重构缺失信息,以及产生蒸馏编码代码本的老师分支。通过分析信息瓶颈,提出了一种构建良好视图以产生潜在表示的方法,并使用多重蒙版策略来提供平衡信息的多个蒙版视图,以增强性能。
Jul, 2022
SCE-MAE 是一个高度有效且稳健的框架,在标记数据不可用的情况下,通过使用 MAE 方法、基于特征图进行操作以及使用密度峰聚类算法和局部受限排斥损失来直接提取部分局部对应关系,大幅超越了现有 SOTA 方法约 20%-44% 的地标匹配和约 9%-15% 的地标检测任务。
May, 2024
本文研究了 Masked Autoencoder 的数据扩增问题,提出了基于同源识别的 Mix Autoencoder 方法,通过自监督预训练可以提升下游视觉任务表现,在 ImageNet、ADE20K 和 COCO 数据集上 outperforms 了 MAE 和 iBOT 的方法。
Mar, 2023