T-MAE：用于点云表示学习的时态掩码自动编码器

Dec, 2023

T-MAE：用于点云表示学习的时态掩码自动编码器

T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning

Weijie Wei, Fatemeh Karimi Nejadasl, Theo Gevers, Martin R. Oswald

TL;DR在户外点云分割中，基于转换器等先进网络的建模能力受制于标注数据的稀缺性。为了更好地利用点云序列中蕴含的时间信息，本文提出了一种有效的预训练策略，即时序遮蔽自动编码器 (Temporal Masked AutoEncoders, T-MAE)，通过输入与时间相关的相邻帧并学习时间依赖关系。T-MAE 预训练策略结合了 SiamWCA 骨干网络，其中包含了孪生编码器和基于窗口的交叉注意力模块 (window-based cross-attention, WCA)，用于接收两帧输入。此外，为了提高目标对象的理解能力，时间建模还作为一种稳健且天然的数据增强方法，在同一对象的不同帧之间考虑自车运动改变的照明角度。通过使用遥远的历史帧而非连续帧，可以更加成本有效且强大。在自监督学习方法中，利用 T-MAE 预训练策略在 Waymo 数据集上实现了最佳性能。通过全面实验验证了本提案的所有组成部分。在接受后，源代码将会公开。

Abstract

The scarcity of annotated data in outdoor point cloud segmentation poses a significant obstacle in harnessing the modeling capabilities of advanced networks like transformers. Consequently, scholars have been act

outdoor point cloud segmentation transformers self-supervised pre-training temporal modeling siamwca

发现论文，激发创造

孪生掩模自编码器

本文提出了基于 SiamMAE 的 Siamese Masked Autoencoders 方法，使用视频学习视觉对应关系，通过对大量补丁进行遮罩，鼓励网络集中学习运动对象和学习以对象为中心的表示。该方法可以在不依赖数据增强或用于防止表示崩溃的手工制作跟踪先兆任务或其他技术的情况下，实现与先前的自我监督方法相比更好的表现。

May, 2023

Point-M2AE：基于多尺度掩码自编码器的分层点云预训练

提出 Point-M2AE，一种新的多层次自监督学习框架，用于使用 Masked Autoencoders 预训练 3D 点云的分层表示学习，其具有优越的性能并超过了其他完全训练的方法。

May, 2022

GeoMAE：自监督点云预训练的掩蔽几何目标预测

本文介绍了一种基于几何特征重建的点云表示学习框架，其中包括三个点云专有的自监督学习目标，即质心预测、表面法线估计和曲率预测。该框架采用自监督学习方法，创造有意义的任务，相互促进模型更好地推理点云的精细几何结构。通过训练后，该模型在物体检测、分割和多目标跟踪等任务上均实现了显著的表现提升。

May, 2023

基于 Masked-AutoEncoder 的点云预训练中的 3D 特征预测

通过自编码器预训练并采用使用基于注意力机制的解码器，本文在点云分析任务中表现优异，提高了点位置重建的不必要性，并还原了遮挡点的基础功能特征，包括表面法线和表面变化。

Apr, 2023

具有 Siamese 裁剪遮罩自编码器的高效图像预训练

CropMAE 是一种替代 SiamMAE 的 Siamese 预训练方法，通过仅考虑从同一图像裁剪而来的图像对，而不是从视频中提取的帧对，从而减少了对视频数据集的需求，同时保持了竞争性能，并大幅减少了预训练时间。此外，CropMAE 证明了它能够学习类似的物体中心化表示，而不需要明确的运动，这表明当前的自监督学习方法并不是从运动中学习对象，而是依赖于 Siamese 架构。最后，CropMAE 实现了迄今最高的遮挡比例（98.5%），仅使用两个可见的补丁就能重建图像。

Mar, 2024

通过点特征增强掩膜自编码器实现紧凑 3D 表示

为了学习紧凑的 3D 表示，我们提出了一个简单而有效的 Point Feature Enhancement Masked Autoencoders (Point-FEMAE)，它主要由一个全局分支和一个局部分支组成，通过全局随机和局部块掩码策略获得的全局和局部未经掩码的补丁提取点特征，然后使用特定的解码器进行重构，同时，为了进一步增强局部分支中的特征，我们提出了一个局部增强模块，使用局部补丁卷积方法感知更大尺度上的细粒度局部上下文。

Dec, 2023

GD-MAE：基于 MAE 预训练的 LiDAR 点云生成解码器

本文提出了一种基于生成解码器的 Masked Autoencoders（GD-MAE）方法用于自动合并周围上下文信息，以恢复多层次融合遮蔽几何知识的三维点云，能在保持良好性能的情况下探索各种遮蔽策略，且实验结果表明该方法在多个大单元基准上均有一致的效果提升与强鲁棒性与泛化能力。

Dec, 2022

MV2MAE：多视角视频掩码自编码器

从多视角捕获的视频可以帮助感知世界的 3D 结构，并对计算机视觉任务，如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法，通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器（MAE）框架，在同视角解码器的基础上，引入了一个独立的交叉视角解码器，利用交叉注意机制从源视角视频重构目标视角视频，以获得对视角变化具有鲁棒性的表示。针对视频，静态区域可以简单地进行重构，这限制了学习有意义表示的能力。为此，我们引入了一种动态加权重构损失来改进时间建模。我们在 NTU-60、NTU-120 和 ETRI 数据集上报告了最先进的结果，并在 NUCLA、PKU-MMD-II 和 ROCOG-v2 数据集上进行了迁移学习设置，证明了我们方法的鲁棒性。我们将提供代码。

Jan, 2024

点云自监督学习：基于三维到多视角遮蔽自编码器

通过使用 3D 到多视图掩码自编码器，充分利用 3D 点云的多模属性，提出了一种全新的方法，这不仅丰富了模型对几何结构的理解，还利用了点云的固有多模性能，有效地改进了各种任务，包括 3D 对象分类、少样本学习、部分分割和 3D 对象检测。

Nov, 2023

时空解耦掩码预训练用于交通预测

通过使用掩码自编码器进行预训练，我们提出了一种新颖的框架 STD-MAE，用于准确预测多变量交通流时间序列，该框架能够学习和编码复杂的时空依赖关系，并通过隐含表示增强下游时空交通预测模型的能力。

Dec, 2023