基于语义渲染的 LiDAR 点云预训练
由于视觉自主驾驶应用需要同时处理语义、3D 几何和时间信息以进行联合感知、预测和规划,因此我们提出了一种名为 “ViDAR” 的预训练模型,用于预训练下游视觉编码器,并通过新颖的隐变换操作将历史嵌入式表示转换为 3D 几何空间,以实现未来点云的预测。实验结果表明,在下游任务中取得了显著的增益,如在 3D 检测上的 NDS 提高了 3.1%,运动预测的错误率减少了约 10%,规划中碰撞率减少了约 15%。
Dec, 2023
本论文提出一种基于自监督学习的点云深度感知模型预训练方法,通过表面重建预训练任务和基于潜在向量的感知头来抓取表面信息的语义片段并提高对象检测和场景语义分割性能。
Dec, 2022
通过多视图渲染三维数据,运用局部和全局两个层次的自监督方式进行神经网络的预训练来取得了优于 PointNet,DGCNN 和 SR-UNet 等现有方法的效果,并分析了合成和真实数据的优缺点。
Oct, 2022
通过使用与图像相关的 shelf-supervision 模型对配对的 RGB 和 LiDAR 数据进行无监督预训练,我们提出了一种能够生成零样本 3D 边界框的点云表示方法,这种方法在半监督检测中能够显著提高检测准确性,尤其适用于 LiDAR-only 和多模态 (RGB + LiDAR) 检测。我们在 nuScenes 和 WOD 上展示了我们方法的有效性,并在有限数据环境中明显改进了之前的工作。
Jun, 2024
通过可微分神经渲染,我们提出了一个新的通用方法来学习点云表示,实现了 3D 和 2D 之间的无缝集成,并在室内和室外场景中的多个任务中实现了卓越的性能和持续改进。
Oct, 2023
本研究旨在促进 3D 深度学习表示学习的研究,重点关注高级场景理解任务,使用统一的三元组架构、源数据集和对比损失进行无监督预训练,对室内和室外、真实和合成数据集的 6 个不同基准进行分割和检测,取得了鼓舞性的结果,表明学习到的表示可以在不同领域推广使用,并且与监督的预训练的改善程度相似,建议未来的努力应该更加注重扩充数据收集而非详细标注。
Jul, 2020
我们提出了一种端到端的语义分割辅助场景补全网络,包括 2D 补全分支和 3D 语义分割分支,以提供语义信息。通过采用 BEV 表示和 3D 稀疏卷积,我们可以从较低的操作数中受益,同时保持有效的表达。此方法在 SemanticKITTI 数据集上表现出有竞争力的性能和低延迟。
Sep, 2021
通过构建大规模点云数据集,将点云预训练任务形式化为一种半监督问题,并从这样多样化的预训练数据中学习可推广的表示,从而在多个基准模型和基准测试中取得了显著的性能增益。
Jun, 2023
提出了一种名为 ProposalContrast 的无监督点云预训练框架,该框架通过对比区域建议来学习强大的 3D 表示,从而更好地适应 3D 检测属性。
Jul, 2022