Cohere3D：利用时间一致性进行无监督视觉自动驾驶的表示学习

Feb, 2024

Cohere3D：利用时间一致性进行无监督视觉自动驾驶的表示学习

Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation Learning of Vision-based Autonomous Driving

Yichen Xie, Hongge Chen, Gregory P. Meyer, Yong Jae Lee, Eric M. Wolff...

TL;DR为了克服图像中缺乏深度线索的问题，本文提出了一种新的对比学习算法 Cohere3D，用于在长期输入序列中学习一致的实例表示，从而在自动驾驶的下游任务中实现多个输入帧的实例级对应。通过预训练阶段中从 LiDAR 传感器中的原始点云构建长期时序对应来辅助从基于视觉的鸟瞰特征图中提取实例级表示。实验证明该算法在数据效率和任务性能方面都取得显著改进。

Abstract

Due to the lack of depth cues in images, multi-frame inputs are important for the success of vision-based perception, prediction, and planning in autonomous driving. Observations from different angles enable the recovery of 3D object states from 2D image inputs if we can identify the s

multi-frame inputs autonomous driving 3d object states contrastive learning algorithm instance-level correspondence

发现论文，激发创造

视角到标签：自监督三维物体检测的多视角一致性

提出了一种基于多视角和弱标签的纯 RGB 序列的自监督 3D 物体检测方法，其在 KITTI 3D 数据集上的性能与使用激光雷达或立体图像的最先进的自监督方法相当。

May, 2023

基于时间连贯性的动态场景通用重建

该论文介绍了一种不需要先验知识的方法，利用多视角相机从复杂动态场景中获取 4D 的、时间相干的场景模型的无监督重构，并通过应用于自由视角渲染和虚拟现实中，改善了非刚性对象分割和形状重构的精度。

Jul, 2019

自动驾驶中的无监督 3D 感知与 2D 视觉语言蒸馏

本文介绍了一种多模态自动标注流程，可以生成用于训练开放式类别的无标注 3D 边界框和轨迹，从而处理自动驾驶等安全关键应用中可能在部署后遇到的新物体类型。相比于当前领域的最新研究，我们的方法可以以无监督的方式处理静态和移动的对象，并通过提出的视觉 - 语言知识蒸馏方法输出开放式词汇的语义标签。基于 Waymo 开放数据集的实验证明，我们的方法在各种无监督 3D 感知任务上显著优于先前的工作。

Sep, 2023

视觉点云预测能够实现可扩展自动驾驶

由于视觉自主驾驶应用需要同时处理语义、3D 几何和时间信息以进行联合感知、预测和规划，因此我们提出了一种名为 “ViDAR” 的预训练模型，用于预训练下游视觉编码器，并通过新颖的隐变换操作将历史嵌入式表示转换为 3D 几何空间，以实现未来点云的预测。实验结果表明，在下游任务中取得了显著的增益，如在 3D 检测上的 NDS 提高了 3.1％，运动预测的错误率减少了约 10％，规划中碰撞率减少了约 15％。

Dec, 2023

无标签视频中的物体中心表示学习

本研究介绍了一种从未标记的视频中进行无监督学习的新方法，通过引入一种面向物体的时间相干性方法来促进学习具有相似表征的物体，并在多个基准数据集上展示了与竞争无监督方法相比显著的准确度提高。

Dec, 2016

R3D3: 多相机下动态场景的稠密三维重建

提出了一种多摄像机系统来实现密集的三维重建和自我运动估计，通过多摄像机间的几何估计和单目深度优化来获得鲁棒的几何深度和姿态估计，同时通过深度优化网络引入可学习的场景先验，从而在具有挑战性的动态室外环境中实现了稠密、一致的三维重建。

Aug, 2023

可学习通信的自动驾驶系统协同式三维物体检测

本文提出一种新的协同三维物体检测框架，通过利用空间分布式传感器所提供的信息来辅助自动驾驶系统中的感知精度，同时避免因事先的通信方案导致通信拥堵和 / 或性能受限的问题。通过两个复杂的驾驶场景的实验结果和带宽使用分析，证明了该方法可以在各种检测困难情况下节省通信和计算成本，并显著提高检测性能。

May, 2022

复杂动态场景的时空一致性四维重建

本文介绍了一种重建 4D 时间连续场景模型的方法，该方法使用多个移动相机进行重建，可以重建动态或静态物体，同时将稀疏 - 稠密时序对应与联合多视角分割和重建结合使用，利用时间上的连续性克服了视觉歧义，并通过引入测地线星凸性的约束实现了具有鲁棒性的动态物体分割和重建。

Mar, 2016

使用三维先验增强二维表示学习

通过在训练过程中直接强制将强大的三维结构先验性知识融入模型，我们提出了一种新的方法来加强现有的自监督学习方法，并通过一系列数据集实验证明了我们的三维感知表示比传统的自监督基线更加稳健。

Jun, 2024

4DContrast：基于动态对应的对比学习用于三维场景理解

我们提出了一种将 4D 动态物体先验知识注入到学习的 3D 表示中的方法，并利用合成的 3D 形状和对比学习在 3D-4D 约束下进行数据增强，在下游的 3D 语义场景理解任务中，能够有效地提高表现。实验证明，我们的无监督表示学习方法能够在下游的 3D 语义分割、物体检测和实例分割等任务中表现出色，并且在数据稀缺的情况下显著提高了性能。

Dec, 2021