- 增强掩模自编码器的伪标记
提出了一种增强的方法,通过集成伪标记和基于标记的重建来提高 Masked Autoencoders(MAE)的性能,在网络中促进实例级别的区分并捕捉局部上下文。
- CVPR基于遮罩图像建模的航空农业图像无标签异常检测
使用自监督学习和掩蔽自编码器的方法,通过检测农业无人机图像中的异常像素来实现农田异常检测,从而提高在农业领域的生产效率。
- 领域引导的遮蔽自编码器用于独特玩家识别
我们提出了一种基于 d-MAE 的领域引导蒙版策略,用于运动模糊环境下的球员标识,结合一个新的时空网络,通过预处理和关键帧融合技术,在三个大规模体育数据集上取得了显著的性能提升。
- PAME: 无参考点云质量评估的自监督掩码自编码器
我们提出了一种自监督预训练框架,使用了掩蔽自动编码器,来帮助模型在无标签的情况下学习有用的表示,通过将点云投影成图像并使用双分支自动编码器来重构图像中的遮蔽区域,从而分别学习具有内容感知特征和失真感知特征的映射图像,在模型微调阶段,学习到的 - uaMix-MAE:基于无监督音频混合的高效预训练音频 Transformer 调优
提出了一种有效的 ID 调节策略 uaMix-MAE,通过对预训练的 MAEs 进行对比调节,以实现对特定任务的语义有效适应,并且通过操纵输入和虚拟标签空间中的音频样本来优化模型,实验结果表明在低 / 少样本设置中,所提出的模型在有限的无标 - MedFLIP:医学视觉与语言自监督快速预训练之基于掩码自编码器的方法
介绍了一种名为 MedFLIP 的快速语言 - 图像预训练方法,利用 Masked Autoencoders (MAEs) 和多模态数据进行了零样本学习,提高了医学诊断中从有限数据中学习的能力,通过实验证实了使用语言将提高医学图像分析的零样 - CVPRVideoMAC: 视频蒙版自动编码器与卷积神经网络相遇
这篇论文介绍了一种名为 VideoMAC 的新方法,结合了对视频帧进行对称遮罩的视频自编码器和资源友好的 ConvNets,以及一种称为 MVM 的简单而有效的遮罩视频建模方法,通过在下游任务中的表现超过了基于 ViT 的方法。
- 基于注意力引导的蒙版自动编码器用于学习图像表示
利用注重对象的重建过程来指导复原能力的建议,通过在损失函数中利用场景的注意力图获取的注意力图,提供更多的重建相关对象的强调,从而激励模型学习更加注重对象的表示,同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有 - 重新思考面向掩码自编码器的补丁依赖
我们重新审视了遮蔽自编码器(MAE)解码机制中的区块间依赖关系,并将此解码机制分解为自注意力和交叉注意力。我们的研究表明,区块之间的自注意力对于学习良好的表示并非必要。基于此,我们提出了一种新颖的预训练框架:交叉注意力遮蔽自编码器(Cros - 探索用于遥感中与传感器无关图像检索的掩模自编码器
遥感图像的自监督学习通过掩码自编码器(MAEs)近期吸引了广泛关注,该方法在内容基准图像检索(CBIR)方面具有重要潜力。然而,现有研究假设考虑的遥感图像是由单一图像传感器获取的,因此仅适用于单模态 CBIR 问题。本文首次探讨了 MAEs - Fus-MAE:一种基于交叉注意力的遥感掩码自编码器数据融合方法
Fus-MAE is a self-supervised learning framework based on masked autoencoders that performs data fusion between synthetic - LMD:潜在蒙版扩散技术加速图像重建
本文介绍了一种更快的图像重建框架 LMD,通过潜在遮蔽扩散方法,将高分辨率图像投影和重建在潜在空间中,设计了渐进遮蔽扩散模型,通过三种不同的调度器逐渐提高遮蔽比例,以从简单到困难地重建潜在特征,从而加快模型训练速度,同时保持了原始准确性,并 - 时空解耦掩码预训练用于交通预测
通过使用掩码自编码器进行预训练,我们提出了一种新颖的框架 STD-MAE,用于准确预测多变量交通流时间序列,该框架能够学习和编码复杂的时空依赖关系,并通过隐含表示增强下游时空交通预测模型的能力。
- 掩码自编码器是强大的神经架构搜索学习者
提出了一种基于遮蔽自编码器的新型神经架构搜索(NAS)框架,该框架在搜索过程中不需要标记数据。通过用图像重构任务替代监督学习目标,我们的方法能够在不损害性能和泛化能力的情况下,有效地发现网络架构。此外,我们通过引入多尺度解码器来解决在无监督 - PersonMAE: 使用遮罩自编码器进行人物再识别预训练
我们提出了一个简洁而有效的预训练框架,名为 PersonMAE,通过引入两个核心设计到遮挡自编码器中,以更好地为 Person Re-ID 任务提供服务,并在四个下游任务中实现了最先进的性能。
- LoMAE:低剂量 CT 去噪的低层次视觉遮蔽自编码器
通过引入一种名为 LoMAE 的低水平视觉 MAE 模型,本研究展示了一种提高 transformer 去噪性能的方法,极大地减少了对干净数据的依赖,并在不同噪声水平下展现了显著的鲁棒性和普适性。
- 揭示空间时间遮挡自编码器在多变量时间序列预测中的威力
该研究提出了一种基于空间 - 时间蒙面自编码器(STMAE)的多元时间序列(MTS)预测框架,利用蒙面自编码器来增强空间 - 时间基线模型的性能,并通过在多个 MTS 基准上进行广泛实验来证明其在提高 MTS 预测能力方面的潜力。
- 回归再构造:点云自监督学习的回归自编码器
提出了一种名为 Point-RAE 的新的自编码器方案,用于点云的自监督学习,通过引入掩码回归器,在编码器和解码器之间进行功能解耦,最小化解码器对编码器表示空间的影响,并通过对齐约束确保从可见补丁的编码表示中预测出的用于掩码补丁的表示与从编 - ICCV掩盖式自编码器是高效的类增量学习器
我们提出了使用 Masked Autoencoders (MAEs) 作为高效的学习器来解决 Class Incremental Learning (CIL) 的问题,并通过基于图像级和嵌入级融合的双边 MAE 框架获得更好质量的重建图像和 - UniM$^2$AE:自主驾驶中统一的三维感知的多模态掩码自编码器
该篇研究论文提出了一种用于自动驾驶的多模态蒙版自动编码器(UniM$^2$AE)模型,通过将图像与激光雷达点云的特征融合,实现了对多模态数据的高效处理,提高了三维物体检测和鸟瞰图分割的效果。