GenMM: 视频与 LiDAR 的几何和时间一致的多模态数据生成

Jun, 2024

GenMM: 视频与 LiDAR 的几何和时间一致的多模态数据生成

GenMM: Geometrically and Temporally Consistent Multimodal Data Generation for Video and LiDAR

Bharat Singh, Viveka Kulharia, Luyu Yang, Avinash Ravichandran, Ambrish Tyagi...

TL;DR多模态合成数据生成对于自动驾驶、机器人、增强 / 虚拟现实和零售等领域至关重要。我们提出了一种新颖的方法 GenMM，通过插入时间和几何一致的 3D 对象来联合编辑 RGB 视频和 LiDAR 扫描。我们的方法使用参考图像和三维边界框将新对象无缝地插入和融入目标视频。我们使用基于扩散的视频修复模型修复与三维框一致的 2D 感兴趣区域。然后，我们使用最先进的语义分割和单目深度估计技术计算对象的语义边界并估计其表面深度。随后，我们使用基于几何的优化算法恢复对象表面的 3D 形状，确保其准确适应三维边界框。最后，与新对象表面相交的 LiDAR 光线被更新以反映与其几何形状一致的深度。我们的实验证明了 GenMM 在视频和 LiDAR 模态中插入各种 3D 对象的有效性。

Abstract

multimodal synthetic data generation is crucial in domains such as autonomous driving, robotics, augmented/virtual reality, and retail. We propose a novel approach, genmm, for jointly editing →

multimodal synthetic data generation genmm rgb videos lidar scans 3d objects

发现论文，激发创造

MM-Gaussian：基于高斯函数的三维多模态融合在无界场景中的定位和重建

在无界场景中进行定位和制图的 MM-Gaussian 多模态融合系统利用 LiDAR 和相机提供的几何结构信息解决了仅依靠视觉解决方案时遇到的深度不准确性问题，并利用 3D 高斯点云实现逼真的渲染效果。

Apr, 2024

自动驾驶多模态三维语义分割 MSeg3D

利用多模态数据的几何和语义特征，通过三个步骤来完成多模态 3D 语义分割任务。经过我们的研究，MSeg3D 在 nuScenes、Waymo 和 SemanticKITTI 数据集上取得了最先进的结果。

Mar, 2023

MM3DGS SLAM：多模态三维高斯着色法在 SLAM 中使用视觉、深度和惯性测量

使用 3D 高斯地图表示方法，并结合未放置相机图像和惯性测量数据，能够实现准确的同步定位与映射（SLAM），并解决了神经辐射场表示方法的局限性，实现了更快的渲染、尺度感知和轨迹跟踪。同时，作者提供了 UT-MM 多模态数据集，经实验评估表明 MM3DGS 相比现有 3DGS SLAM 技术可以实现 3 倍的跟踪改进和 5% 的光度渲染质量提升，并且能够实现高分辨率稠密 3D 地图的实时渲染。

Apr, 2024

VideoMV：基於大型視頻生成模型的一致多視角生成

使用来自视频生成模型的图像，通过引入一种新的框架以及 3D 感知降噪采样策略，可以更快速地生成密集视图，提高图像的质量和一致性。

Mar, 2024

基于光度学的网格优化技术，用于视频对齐的三维物体重建

本论文研究了从 RGB 视频中重建三维物体网格的方法，结合多视角几何和数据驱动方法来优化物体网格以适应多视角光度一致性，并通过形状先验来约束网格变形。作者采用逐片图像对齐的形式，通过光度误差更新形状参数，无需深度或掩膜信息。此外，作者还展示了如何通过虚拟视点的光栅化来避免零光度梯度导致的退化问题，并展示了采用光度网格优化的方法从合成和真实视频中获得的三维物体网格重建结果，相比于传统的网格生成网络或表面重建方法，避免了繁琐的手动后处理。

Mar, 2019

MSMDFusion: 多尺度深度种子融合 LiDAR 和摄像头进行 3D 物体检测

基于激光雷达和摄像头信息的融合对于实现自动驾驶系统中的准确可靠的三维物体检测至关重要。在该文中，提出了一种新颖的框架，其中利用了深度信息和激光雷达与摄像头之间的交互，实现更全面的多模态融合特征，并在 nuScenes 测试基准中取得了最新的 3D 目标检测结果，同时无需使用测试时间增广和集成技术。

Sep, 2022

GLaMM: 像素 grounding 大规模多模态模型

GLaMM 是首个能够无缝生成自然语言回复并与相应对象分割遮罩混合的模型，在图像和文本领域中以不同粒度的方式与模型进行交互，同时通过 GLaMM，还可以在诸多其他任务中有效地实现指代表达分割、图像和区域级别的字幕以及视觉语言对话。

Nov, 2023

LidarDM：生成世界中的 LiDAR 仿真

LidarDM 是一种新颖的 LiDAR 生成模型，能够生成逼真、具有布局意识、物理合理和时间连贯的 LiDAR 视频。该模型具有两个前所未有的能力：根据驾驶场景进行 LiDAR 生成，为自动驾驶模拟提供了重要潜力，并且能够生成 4D LiDAR 点云，实现逼真且时间连贯的序列。我们的实验表明，我们的方法在逼真性、时间连贯性和布局一致性方面优于竞争算法。此外，我们还展示了 LidarDM 可用作生成世界模型的模拟器，用于训练和测试感知模型。

Apr, 2024

使用可微分的多模态学习进行 3D 物体定位

本文描述了一种多模态方法，使用模拟的激光雷达数据，通过光线追踪和图像像素损失与可微分渲染相结合，优化物体在计算机图形场景中相对于观察者或某些参考对象的位置。通过梯度下降完成物体位置优化，损失函数受两种模态影响。将图像像素损失与可微分渲染结合的传统物体放置优化方法相比，本文表明使用第二种模态（激光雷达）可以更快地收敛。将传感器输入融合的这种方法对于自动驾驶车辆具有潜在的有用性，因为这些方法可以用于确定场景中多个参与者的位置。本文还提出了一种用于培训自动驾驶车辆的多种类型数据的模拟方法。

Sep, 2023

2L3: 将不完美生成的 2D 图像提升到精确的 3D

通过利用内在分解指导、瞬态 - 单模先验指导和视图增强来解决光照不一致、几何不对齐和视图稀疏等问题，我们提出了一种新的 3D 重构框架，该框架能够将多视图图像生成与神经网络基于体积有符号距离函数的单一图像到 3D 对象重建相结合。在各种数据集上评估我们的方法，并在定量和定性评估中展示了其卓越性能，从而在 3D 物体重建方面取得了显著的进展。与最新的最先进方法 Syncdreamer 相比，我们将 Chamfer 距离误差降低了约 36％，将 PSNR 提高了约 30％。

Jan, 2024