Dec, 2023

T-MAE:用于点云表示学习的时态掩码自动编码器

TL;DR在户外点云分割中,基于转换器等先进网络的建模能力受制于标注数据的稀缺性。为了更好地利用点云序列中蕴含的时间信息,本文提出了一种有效的预训练策略,即时序遮蔽自动编码器 (Temporal Masked AutoEncoders, T-MAE),通过输入与时间相关的相邻帧并学习时间依赖关系。T-MAE 预训练策略结合了 SiamWCA 骨干网络,其中包含了孪生编码器和基于窗口的交叉注意力模块 (window-based cross-attention, WCA),用于接收两帧输入。此外,为了提高目标对象的理解能力,时间建模还作为一种稳健且天然的数据增强方法,在同一对象的不同帧之间考虑自车运动改变的照明角度。通过使用遥远的历史帧而非连续帧,可以更加成本有效且强大。在自监督学习方法中,利用 T-MAE 预训练策略在 Waymo 数据集上实现了最佳性能。通过全面实验验证了本提案的所有组成部分。在接受后,源代码将会公开。