MM-Gaussian：基于高斯函数的三维多模态融合在无界场景中的定位和重建

Apr, 2024

MM-Gaussian：基于高斯函数的三维多模态融合在无界场景中的定位和重建

MM-Gaussian: 3D Gaussian-based Multi-modal Fusion for Localization and Reconstruction in Unbounded Scenes

Chenyang Wu, Yifan Duan, Xinran Zhang, Yu Sheng, Jianmin Ji...

TL;DR在无界场景中进行定位和制图的 MM-Gaussian 多模态融合系统利用 LiDAR 和相机提供的几何结构信息解决了仅依靠视觉解决方案时遇到的深度不准确性问题，并利用 3D 高斯点云实现逼真的渲染效果。

Abstract

localization and mapping are critical tasks for various applications such as autonomous vehicles and robotics. The challenges posed by outdoor environments present particular complexities due to their unbounded c

localization mapping mm-gaussian lidar-camera multi-modal fusion

发现论文，激发创造

MM3DGS SLAM：多模态三维高斯着色法在 SLAM 中使用视觉、深度和惯性测量

使用 3D 高斯地图表示方法，并结合未放置相机图像和惯性测量数据，能够实现准确的同步定位与映射（SLAM），并解决了神经辐射场表示方法的局限性，实现了更快的渲染、尺度感知和轨迹跟踪。同时，作者提供了 UT-MM 多模态数据集，经实验评估表明 MM3DGS 相比现有 3DGS SLAM 技术可以实现 3 倍的跟踪改进和 5% 的光度渲染质量提升，并且能够实现高分辨率稠密 3D 地图的实时渲染。

Apr, 2024

GenMM: 视频与 LiDAR 的几何和时间一致的多模态数据生成

多模态合成数据生成对于自动驾驶、机器人、增强 / 虚拟现实和零售等领域至关重要。我们提出了一种新颖的方法 GenMM，通过插入时间和几何一致的 3D 对象来联合编辑 RGB 视频和 LiDAR 扫描。我们的方法使用参考图像和三维边界框将新对象无缝地插入和融入目标视频。我们使用基于扩散的视频修复模型修复与三维框一致的 2D 感兴趣区域。然后，我们使用最先进的语义分割和单目深度估计技术计算对象的语义边界并估计其表面深度。随后，我们使用基于几何的优化算法恢复对象表面的 3D 形状，确保其准确适应三维边界框。最后，与新对象表面相交的 LiDAR 光线被更新以反映与其几何形状一致的深度。我们的实验证明了 GenMM 在视频和 LiDAR 模态中插入各种 3D 对象的有效性。

Jun, 2024

一个广义的多模型融合检测框架

本文提出了一种名为 MMFusion 的多模态 3D 检测框架，以在复杂场景中实现 LiDAR 和图像的准确融合，通过实验证明，该框架不仅优于现有基准，而且尤其适用于在 KITTI 基准上检测骑自行车和行人。

Mar, 2023

通过自组织高斯混合模型实现增量多模式表面映射

本文介绍了一种增量多模式表面映射方法，将环境表示为连续的概率模型。该方法利用高斯混合模型（GMMs）表示环境，通过空间哈希图提取 GMM 子地图，并确定点云中的相关和冗余数据，从而提高计算速度和地图的准确性。评估使用模拟和真实数据，该软件开源供机器人社区使用。

Sep, 2023

MSMDFusion: 多尺度深度种子融合 LiDAR 和摄像头进行 3D 物体检测

基于激光雷达和摄像头信息的融合对于实现自动驾驶系统中的准确可靠的三维物体检测至关重要。在该文中，提出了一种新颖的框架，其中利用了深度信息和激光雷达与摄像头之间的交互，实现更全面的多模态融合特征，并在 nuScenes 测试基准中取得了最新的 3D 目标检测结果，同时无需使用测试时间增广和集成技术。

Sep, 2022

自动驾驶多模态三维语义分割 MSeg3D

利用多模态数据的几何和语义特征，通过三个步骤来完成多模态 3D 语义分割任务。经过我们的研究，MSeg3D 在 nuScenes、Waymo 和 SemanticKITTI 数据集上取得了最先进的结果。

Mar, 2023

基于 GMM 的毫米波雷达多模交通监测中的点云分割

以毫米波雷达为传感器，提出基于高分辨率雷达点云的混合高斯模型无监督学习算法，在多模态交通监测中取得了良好的分割效果。

Nov, 2019

高斯喷洒式定位与建图

使用单个移动单目或 RGB-D 相机，我们首次应用 3D 高斯扩散技术于增量 3D 重建。我们的同时定位与建图（SLAM）方法以高质量渲染作为所需的准确、高效跟踪和建图的唯一 3D 表示，通过几个创新实现连续重建高保真度的 3D 场景，包括通过直接优化对 3D 高斯器应用相机跟踪，利用高斯器的明确性质引入几何验证和规则化以处理增量 3D 密集重建中出现的模糊性，以及引入一个全面的 SLAM 系统，实现在新视角合成和轨迹估计中的最新结果，甚至对微小和甚至透明的物体进行重建。

Dec, 2023

MM-Point：多视图信息增强的多模态自监督 3D 点云理解

提出一种新颖的自监督点云表示学习方法 MM-Point，通过多模态交互和传输同时处理三维物体和多个二维视图之间的一致跨模态目标，以及通过多个 MLP 和多层次增强策略来更有效地实现二维多视图信息的一致性对比学习，进一步学习了二维多视图的多层次不变性。MM-Point 在各种下游任务中展现出最先进的性能，如在合成数据集 ModelNet40 上达到了 92.4% 的峰值准确率，在真实数据集 ScanObjectNN 上达到了 87.8% 的最高准确率，与全监督方法可媲美。此外，我们还展示了它在少样本分类、三维部分分割和三维语义分割等任务中的有效性。

Feb, 2024

面向室内移动代理的多模态多任务场景理解模型

本文探讨了个性化移动智能体中的感知系统需要开发室内场景理解模型，该模型能够理解 3D 几何、捕捉客观性、分析人类行为等，并且描述了 MMISM（多模态输入多任务输出室内场景理解模型）来解决室内环境数据量不足以及杂乱信息融合等问题，并表明 MMISM 在 3D 目标检测结果上优于传统单一任务模型。

Sep, 2022