- MaskLRF:基于局部参考帧的自监督预训练用于旋转不变的三维点云分析的掩码自编码器
这篇文章介绍了一种用于实际三维点集分析的旋转不变的自监督预训练框架,通过在局部参考帧中屏蔽自动编码的三维点来学习旋转不变且高度可推广的潜在特征,以提高对具有不一致方向的三维点集的准确性。
- DCS-Net: 具有全球洞察能力的无漏洞点云预训练框架
我们引入了一种称为可微分中心采样网络(DCS-Net)的新型解决方案,通过同时学习点云中的全局模式和局部模式,有效地提升了现有点云模型的表达能力并解决了信息泄漏问题。
- 感觉的力量:通过遮蔽式多模态学习从视觉和触觉中获得的通用操控
利用视觉和触觉信息在强化学习环境中联合学习策略和视觉触觉表示的蒙掩多模态学习(M3L)方法提高样本效率,并超越单个感官的泛化能力。
- ICCVMGMAE: 视频蒙版自编码的运动引导掩蔽
本文介绍了一种新的视频自编码方法,采用运动引导的掩模策略,通过引入运动信息建立时间一致的掩模体积,从而提高视频自编码的性能。通过实验证明,该方法在视频预训练中能够更有效地处理时间一致性和信息泄漏问题。
- 可解释的自监督变压器深入探究点云
本文研究了 transformers 在点云领域中通过自监督学习所获得的特性,探讨了其预训练方案的有效性,分析了数据数量对网络特征的影响,提出了一种解冻策略,并在分类任务中取得了最优结果。
- R-MAE: 区域遇见掩模自编码器
本研究探讨了基于区域的检测器在无监督学习中的应用,使用掩膜自编码和自生成对抗网络(GAN)等方法进行重构预训练,提高了图像分割的精度和效率。
- MIMEx:基于掩码输入建模的内在奖励
提出了一种用于探索的通用框架 Masked Input Modeling for Exploration (MIMEx),它能够通过灵活调整掩码分布来控制条件预测任务的难度,并在一系列挑战性的稀疏奖励视觉运动任务中取得了优异的结果。
- 通过图像到点蒙版自编码器从二维预训练模型中学习三维表示
利用自监督的预训练,我们通过 Image-to-Point Masked Autoencoders(I2P-MAE)从 2D 预训练模型中获取优秀的 3D 表示,其中我们引入了两种图像到点的学习方案:一种是引入 2D 引导遮罩策略,另一种是 - TVLT: 无文本的视觉语言变换器
该研究提出了一种无需文本模块的视频与语言结合模型 ——Textless Vision-Language Transformer (TVLT),采用均质的 transformer block 提取由视觉和语音输入组成的多模态信息,用 mask - SemMAE:用语义引导的遮蔽训练自编码器
本文提出了一种 Semantic-Guided Masking 策略,通过引入语义部分将语义信息集成到 MAE 训练过程中,以学习更好的图像表示。该训练方法在各种视觉任务中都可以表现出色,特别是在 ImageNet-1k 中实现了 84.5 - OmniMAE:图像和视频单模型遮蔽预训练
使用遮盖自编码器训练简单的 Vision Transformer,能够在多个视觉模态下获得与单一模态相当或更好的视觉表示,而只需使用单一的预训练模型,大大简化架构并加快训练速度。