SS-MAE:用于多源遥感图像分类的空间 - 频谱屏蔽自编码器
利用遥感数据构建了一个空间 - 时间 - 光谱结构化数据集(STSSD),并提出了一个新方法(A$^{2}$-MAE),通过预训练相互补充不同类型的遥感图像和地理信息来重构遮蔽补丁,实现了多种下游任务的全面改进。
Jun, 2024
以受限遮蔽图像模型为指导的自主学习在遥感中预训练视觉转换器方面引起了广泛关注。在本文中,我们探讨了光谱和空间遥感图像特征作为改进的自编码器重建目标。实验结果说明了 FG-MAE 在 SAR 图像方面的特殊增强效果,同时展示了 FG-MAE 的良好可扩展性,并发布了首批用于中分辨率 SAR 和多光谱图像的预训练视觉转换器。
Oct, 2023
通过使用遮蔽自动编码器(MAE)的卫星图像的预训练框架 SatMAE,我们结合时间嵌入和分组打包多光谱数据以提高预训练能力,进一步提高基准数据集上的监督学习性能(最高可达 7%),并在后续的遥感分类任务中表现出强大的转移学习能力(最高可达 14%)。
Jul, 2022
我们提出了一种自我监督学习框架,称为 “长程上下文化蒙版自编码器(LC-MAE)”,该方法能够有效地利用全局上下文理解视觉表示,同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示,LC-MAE 能够学习到更具有区分性的表示,从而在 ImageNet-1K 上使用 ViT-B 实现了 84.2% 的 top-1 准确率,比基准模型提高了 0.6%。LC-MAE 在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升,并在多个鲁棒性评估指标上均取得了优异的结果。
Oct, 2023
Fus-MAE is a self-supervised learning framework based on masked autoencoders that performs data fusion between synthetic aperture radar and multispectral optical data, effectively competing with contrastive learning strategies in SAR-optical data fusion.
Jan, 2024
本文提出了一种 Semantic-Guided Masking 策略,通过引入语义部分将语义信息集成到 MAE 训练过程中,以学习更好的图像表示。该训练方法在各种视觉任务中都可以表现出色,特别是在 ImageNet-1k 中实现了 84.5% 的细调准确度,比基本 MAE 高 1.4%。
Jun, 2022
SCE-MAE 是一个高度有效且稳健的框架,在标记数据不可用的情况下,通过使用 MAE 方法、基于特征图进行操作以及使用密度峰聚类算法和局部受限排斥损失来直接提取部分局部对应关系,大幅超越了现有 SOTA 方法约 20%-44% 的地标匹配和约 9%-15% 的地标检测任务。
May, 2024
这篇研究介绍了 RS-4M,一个大规模的数据集,用于在遥感图像上进行高效的 Masked Image Modeling(MIM)训练。同时提出了一种名为 SelectiveMAE 的高效 MIM 方法,通过动态编码和重构一部分基于语义丰富性选择的补丁令牌,显著提升了 MIM 模型的训练效率和基线模型的分类、检测和分割性能。
Jun, 2024
本文提出了基于 SiamMAE 的 Siamese Masked Autoencoders 方法,使用视频学习视觉对应关系,通过对大量补丁进行遮罩,鼓励网络集中学习运动对象和学习以对象为中心的表示。该方法可以在不依赖数据增强或用于防止表示崩溃的手工制作跟踪先兆任务或其他技术的情况下,实现与先前的自我监督方法相比更好的表现。
May, 2023
本文提出了一种新的通过自编码集成原始音频数据的方法:Masked Spectrogram Modeling(MSM),并使用 Masked Autoencoders(MAE)进行自监督学习,这种方法在 HEAR 2021 NeurIPS Challenge 中取得了比传统方法更好的结果。
Apr, 2022