MAE 预先预训练对亿级预训练的有效性
本文主要通过使用基于掩码图像建模的 MAE pre-training 方法,即 MAE-lite,来为轻量级 ViTs 的 pre-training 提供配方,并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比,分析和表明了这种 pre-training 的影响,揭示了 pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用,并开发了一个 distillation 策略来提高 pre-trained representations,从而实现更好的性能。
May, 2022
SatMAE++ 是一种多尺度的远程感知图像预训练方法,通过利用多模态数据和卷积上采样块在不同尺度上重构图像,达到了光学和多光谱遥感数据的同等有效性,并在大规模数据集上实现了最先进性能。
Mar, 2024
该研究实现了扩展 MAE 预训练策略 RetroMAE 的统一框架以支持多样化的句子表示任务,并证明其在零样本检索和其他下游任务中的有效性,为未来的句子表示预训练的设计提供了实证建议。
Jul, 2022
本文旨在通过在使用 Coyo-700M 数据集进行实验,探究遮蔽图像建模 (MIM) 方法在不同大小和模型的情况下,进行下游任务的表现变化,并发现了 MIM 在训练数据规模较小时提高模型容量的效果、强重构目标能增加模型在下游任务中的容量,以及大多数情况下,MIM 预训练是数据不可知的。这些发现为未来的 MIM 研究提供了有价值的见解。
May, 2023
本文介绍了使用视频掩码自编码器(VideoMAE)进行可扩展和一般自监督预训练,用于构建视频基础模型和在各种下游任务中取得新的最先进表现的新方法。
Mar, 2023
通过使用遮蔽自动编码器(MAE)的卫星图像的预训练框架 SatMAE,我们结合时间嵌入和分组打包多光谱数据以提高预训练能力,进一步提高基准数据集上的监督学习性能(最高可达 7%),并在后续的遥感分类任务中表现出强大的转移学习能力(最高可达 14%)。
Jul, 2022
在预训练基于互联网规模无标签数据的基础模型 (Foundation Models,FMs) 中,研究增至十亿级参数规模的 FMs 和高性能计算 (HPC) 训练,以应用于地理空间图像应用中,取得了较小规模模型的显著准确率提升。
Apr, 2024
远程感知图像理解中,该研究通过自监督学习的通用框架重新探讨了经典的多尺度表示学习问题,提出了一种基于掩码自编码器(MAE)的 Cross-Scale MAE 自监督模型,通过尺度增强技术以及对比损失和生成损失的交叉尺度一致性约束来确保一致且有意义的表示,进一步利用 xFormers 库在单个 GPU 上加速网络预训练并保持所学表示的质量,实验证明 Cross-Scale MAE 相较于标准 MAE 和其他最先进的远程感知 MAE 方法具有优越的性能。
Jan, 2024