视觉点云预测能够实现可扩展自动驾驶

Dec, 2023

视觉点云预测能够实现可扩展自动驾驶

Visual Point Cloud Forecasting enables Scalable Autonomous Driving

Zetong Yang, Li Chen, Yanan Sun, Hongyang Li

TL;DR由于视觉自主驾驶应用需要同时处理语义、3D 几何和时间信息以进行联合感知、预测和规划，因此我们提出了一种名为 “ViDAR” 的预训练模型，用于预训练下游视觉编码器，并通过新颖的隐变换操作将历史嵌入式表示转换为 3D 几何空间，以实现未来点云的预测。实验结果表明，在下游任务中取得了显著的增益，如在 3D 检测上的 NDS 提高了 3.1％，运动预测的错误率减少了约 10％，规划中碰撞率减少了约 15％。

Abstract

In contrast to extensive studies on general vision, pre-training for scalable visual autonomous driving remains seldom explored. visual autonomou

visual autonomous driving pre-training visual point cloud forecasting vidar downstream tasks

发现论文，激发创造

基于语义渲染的 LiDAR 点云预训练

我们提出了一种新颖的图像辅助预训练框架 PRED，用于户外点云，以解决点云不完整性和遮挡对齐的问题，并通过神经渲染技术利用图像的语义信息进行监督。大规模数据集上的实验证明了 PRED 方法在 3D 感知任务中的显著优势。

Nov, 2023

点云预测作为 4D 占用预测的代理

通过将 3D 点云预测任务从非注释 LiDAR 序列转变为时空 (4D) 占据预测任务，我们可以评估和比较各种数据集、传感器和车辆的点云预测算法。

Feb, 2023

AD-PT: 基于大规模点云数据集的自主驾驶预训练

通过构建大规模点云数据集，将点云预训练任务形式化为一种半监督问题，并从这样多样化的预训练数据中学习可推广的表示，从而在多个基准模型和基准测试中取得了显著的性能增益。

Jun, 2023

使用 3D 时空卷积网络进行自监督点云预测

本文提出了一种使用 3D LiDAR 扫描来预测未来点云的方法，该方法可用于实现自主移动系统的预测状态估计、避碰和规划，通过使用 2D 范围图像表示扫描数据并连接一系列范围图像来实现端到端的预测，最终通过 3D 卷积来预测未来的 3D 点云，并通过多个数据集进行实验验证，结果表明本文提出的方法比现有的点云预测结构更优且能够很好地适用于新的未知环境。

Sep, 2021

使用多视角渲染进行自监督学习的三维点云分析

通过多视图渲染三维数据，运用局部和全局两个层次的自监督方式进行神经网络的预训练来取得了优于 PointNet，DGCNN 和 SR-UNet 等现有方法的效果，并分析了合成和真实数据的优缺点。

Oct, 2022

PonderV2：铺设通向通用预训练范式的 3D 基础模型之路

通过可微分神经渲染，我们提出了一个新的通用方法来学习点云表示，实现了 3D 和 2D 之间的无缝集成，并在室内和室外场景中的多个任务中实现了卓越的性能和持续改进。

Oct, 2023

基于视觉引导的预测 —— 多时序预测的视觉上下文

本研究针对自动驾驶中的多视角预测车辆状态的问题，提出了一种多视角与历史轨迹相融合的预测框架，并通过使用 3D 卷积从视频中提取视觉特征以及通过 1D 卷积从车速和转向角度轨迹数据中提取特征，实现了在实际数据集上的车辆状态预测任务中的优越表现。

Jul, 2021

VG4D：视觉语言模型进入 4D 视频识别

通过 Vision-Language Models Goes 4D (VG4D) 框架，我们将 VLM 知识从视觉 - 文本预训练模型转移到 4D 点云网络中，实现了增强的识别性能。我们还提出了改进的 PSTNet 版本 im-PSTNet 来增强 4D 编码器，并通过实验证明了我们方法在动作识别方面达到了最先进的性能。

Apr, 2024

Cohere3D：利用时间一致性进行无监督视觉自动驾驶的表示学习

为了克服图像中缺乏深度线索的问题，本文提出了一种新的对比学习算法 Cohere3D，用于在长期输入序列中学习一致的实例表示，从而在自动驾驶的下游任务中实现多个输入帧的实例级对应。通过预训练阶段中从 LiDAR 传感器中的原始点云构建长期时序对应来辅助从基于视觉的鸟瞰特征图中提取实例级表示。实验证明该算法在数据效率和任务性能方面都取得显著改进。

Feb, 2024

基于占据估计的汽车激光雷达自我监督

本论文提出一种基于自监督学习的点云深度感知模型预训练方法，通过表面重建预训练任务和基于潜在向量的感知头来抓取表面信息的语义片段并提高对象检测和场景语义分割性能。

Dec, 2022