使用可微分的多模态学习进行 3D 物体定位

Sep, 2023

使用可微分的多模态学习进行 3D 物体定位

3D Object Positioning Using Differentiable Multimodal Learning

Sean Zanyk-McLean, Krishna Kumar, Paul Navratil

TL;DR本文描述了一种多模态方法，使用模拟的激光雷达数据，通过光线追踪和图像像素损失与可微分渲染相结合，优化物体在计算机图形场景中相对于观察者或某些参考对象的位置。通过梯度下降完成物体位置优化，损失函数受两种模态影响。将图像像素损失与可微分渲染结合的传统物体放置优化方法相比，本文表明使用第二种模态（激光雷达）可以更快地收敛。将传感器输入融合的这种方法对于自动驾驶车辆具有潜在的有用性，因为这些方法可以用于确定场景中多个参与者的位置。本文还提出了一种用于培训自动驾驶车辆的多种类型数据的模拟方法。

Abstract

This article describes a multi-modal method using simulated lidar data via ray tracing and image pixel loss with →

multi-modal method simulated lidar data ray tracing object position optimization differentiable rendering

发现论文，激发创造

多模态虚拟点 3D 检测

通过无缝融合 RGB 传感器到 Lidar 的 3D 识别中，我们提出了一个简单而有效的多模态检测器，该方法利用一组 2D 检测生成密集的虚拟 3D 点，能够增强原来稀疏的 3D 点云，实验结果在大规模 nuScenes 数据集上取得了显着的改进，并超过了竞争融合方法。

Nov, 2021

多线激光雷达位置对自动驾驶物体检测的影响研究

本研究从物理设计的角度出发，研究多个 LiDAR 的不同布置对深度学习算法在 LiDAR 感知中的影响，并通过新的数据采集，检测模型训练和评估框架在 CARLA 模拟器中验证了感知性能。结果表明，3D 点云基础的目标检测中，传感器的放置是至关重要的，会导致 AP 的 10% 性能差异。

May, 2021

自监督的单目可微渲染用于 3D 物体检测

本研究提出了一种基于自监督的方法，利用强形状先验和二维实例掩模来重建带纹理的三维物体并进行姿态估计，通过可微分渲染和先前预训练的单目深度估计网络推断图像中每个物体的三维位置和网格信息，实验结果表明本方法有效地利用嘈杂的单目深度和可微分渲染来代替昂贵的 3D 地面真值标签或激光雷达信息。

Sep, 2020

自动驾驶的共享跨模态轨迹预测

本文提出 Cross-Modal Embedding 框架，以利用多个输入模式的信息来解决自动驾驶系统中的交通代理的未来轨迹预测问题。该方法在训练时学习将一组互补特征嵌入到共享潜在空间中，并利用多个传感器模态进行优化，在测试时可利用单个输入模态生成预测，并取得了很好的效果。

Nov, 2020

自主驾驶的交叉模态轨迹预测

本文提出了一种基于跨模态嵌入框架的自动驾驶预测交通代理未来轨迹的方法，利用多种输入模式和相关传感器来预测未来轨迹，具有较好的预测效果。

Apr, 2020

GenMM: 视频与 LiDAR 的几何和时间一致的多模态数据生成

多模态合成数据生成对于自动驾驶、机器人、增强 / 虚拟现实和零售等领域至关重要。我们提出了一种新颖的方法 GenMM，通过插入时间和几何一致的 3D 对象来联合编辑 RGB 视频和 LiDAR 扫描。我们的方法使用参考图像和三维边界框将新对象无缝地插入和融入目标视频。我们使用基于扩散的视频修复模型修复与三维框一致的 2D 感兴趣区域。然后，我们使用最先进的语义分割和单目深度估计技术计算对象的语义边界并估计其表面深度。随后，我们使用基于几何的优化算法恢复对象表面的 3D 形状，确保其准确适应三维边界框。最后，与新对象表面相交的 LiDAR 光线被更新以反映与其几何形状一致的深度。我们的实验证明了 GenMM 在视频和 LiDAR 模态中插入各种 3D 对象的有效性。

Jun, 2024

自主驾驶的概率三维多模态、多目标跟踪

通过融合 2D 图像与 3D LiDAR 点云的特征，学习度量，以及在无匹配目标检测时初始化跟踪，提出了一种概率、多模态、多对象跟踪系统，实现了比现有技术更鲁棒、数据驱动的多对象跟踪。

Dec, 2020

通过在点云上模拟多模态来增强三维物体检测

该研究提出一种新的方法，通过教会单模（LiDAR）三维目标探测器模拟多模（LiDAR 图像）探测器的特征和响应来提高其效率，从而实现在推断时只需要 LiDAR 数据的目标识别，经过实验，这种方法在性能上优于所有 SOTA 的 LiDAR-only 3D 检测器，甚至超越了基线 LiDAR-image 检测器，填补了单模与多模检测器之间的 72％mAP 差距。

Jun, 2022

在未知领域的多模态 3D 对象检测

自动驾驶中的 LiDAR 数据集存在诸如点云密度、范围和物体尺寸等属性偏差，因此在不同环境中训练和评估的物体检测网络往往会遇到性能下降的问题。为了解决这个问题，域自适应方法假设可以获取来自测试分布的未标注样本。但是，在实际世界中，部署条件和获得代表测试数据集的样本可能无法获得。我们认为，更现实和具有挑战性的形式是要求对未知目标域具有性能的鲁棒性。我们提出了一种双重方式来解决这个问题。首先，我们利用大多数自动驾驶数据集中存在的配对的 LiDAR - 图像数据进行多模态物体检测。我们建议通过利用图像和 LiDAR 点云的多模态特征来进行场景理解任务，从而使得物体检测器对未知域的转换更加鲁棒。其次，我们训练一个 3D 物体检测器，在不同分布之间学习多模态物体特征，并促进这些源域之间的特征不变性，以提高对未知目标域的泛化性能。为此，我们提出了 CLIX$^ ext {3D}$，它是一个用于 3D 物体检测的多模态融合和有监督对比学习框架，它在对不同数据集转换下实现了最先进的域泛化性能。

Apr, 2024

基于神经渲染的自动驾驶城市场景重建

利用多模态数据结合深度学习模型进行密集三维重建，从而提高自动驾驶中的标注验证、数据扩充、缺失 LiDAR 系统的地面真值注释以及自动标记准确性的应用效果。

Feb, 2024