MM-Gaussian:基于高斯函数的三维多模态融合在无界场景中的定位和重建
使用 3D 高斯地图表示方法,并结合未放置相机图像和惯性测量数据,能够实现准确的同步定位与映射(SLAM),并解决了神经辐射场表示方法的局限性,实现了更快的渲染、尺度感知和轨迹跟踪。同时,作者提供了 UT-MM 多模态数据集,经实验评估表明 MM3DGS 相比现有 3DGS SLAM 技术可以实现 3 倍的跟踪改进和 5% 的光度渲染质量提升,并且能够实现高分辨率稠密 3D 地图的实时渲染。
Apr, 2024
多模态合成数据生成对于自动驾驶、机器人、增强 / 虚拟现实和零售等领域至关重要。我们提出了一种新颖的方法 GenMM,通过插入时间和几何一致的 3D 对象来联合编辑 RGB 视频和 LiDAR 扫描。我们的方法使用参考图像和三维边界框将新对象无缝地插入和融入目标视频。我们使用基于扩散的视频修复模型修复与三维框一致的 2D 感兴趣区域。然后,我们使用最先进的语义分割和单目深度估计技术计算对象的语义边界并估计其表面深度。随后,我们使用基于几何的优化算法恢复对象表面的 3D 形状,确保其准确适应三维边界框。最后,与新对象表面相交的 LiDAR 光线被更新以反映与其几何形状一致的深度。我们的实验证明了 GenMM 在视频和 LiDAR 模态中插入各种 3D 对象的有效性。
Jun, 2024
本文提出了一种名为 MMFusion 的多模态 3D 检测框架,以在复杂场景中实现 LiDAR 和图像的准确融合,通过实验证明,该框架不仅优于现有基准,而且尤其适用于在 KITTI 基准上检测骑自行车和行人。
Mar, 2023
本文介绍了一种增量多模式表面映射方法,将环境表示为连续的概率模型。该方法利用高斯混合模型(GMMs)表示环境,通过空间哈希图提取 GMM 子地图,并确定点云中的相关和冗余数据,从而提高计算速度和地图的准确性。评估使用模拟和真实数据,该软件开源供机器人社区使用。
Sep, 2023
基于激光雷达和摄像头信息的融合对于实现自动驾驶系统中的准确可靠的三维物体检测至关重要。在该文中,提出了一种新颖的框架,其中利用了深度信息和激光雷达与摄像头之间的交互,实现更全面的多模态融合特征,并在 nuScenes 测试基准中取得了最新的 3D 目标检测结果,同时无需使用测试时间增广和集成技术。
Sep, 2022
利用多模态数据的几何和语义特征,通过三个步骤来完成多模态 3D 语义分割任务。经过我们的研究,MSeg3D 在 nuScenes、Waymo 和 SemanticKITTI 数据集上取得了最先进的结果。
Mar, 2023
使用单个移动单目或 RGB-D 相机,我们首次应用 3D 高斯扩散技术于增量 3D 重建。我们的同时定位与建图(SLAM)方法以高质量渲染作为所需的准确、高效跟踪和建图的唯一 3D 表示,通过几个创新实现连续重建高保真度的 3D 场景,包括通过直接优化对 3D 高斯器应用相机跟踪,利用高斯器的明确性质引入几何验证和规则化以处理增量 3D 密集重建中出现的模糊性,以及引入一个全面的 SLAM 系统,实现在新视角合成和轨迹估计中的最新结果,甚至对微小和甚至透明的物体进行重建。
Dec, 2023
提出一种新颖的自监督点云表示学习方法 MM-Point,通过多模态交互和传输同时处理三维物体和多个二维视图之间的一致跨模态目标,以及通过多个 MLP 和多层次增强策略来更有效地实现二维多视图信息的一致性对比学习,进一步学习了二维多视图的多层次不变性。MM-Point 在各种下游任务中展现出最先进的性能,如在合成数据集 ModelNet40 上达到了 92.4% 的峰值准确率,在真实数据集 ScanObjectNN 上达到了 87.8% 的最高准确率,与全监督方法可媲美。此外,我们还展示了它在少样本分类、三维部分分割和三维语义分割等任务中的有效性。
Feb, 2024
本文探讨了个性化移动智能体中的感知系统需要开发室内场景理解模型,该模型能够理解 3D 几何、捕捉客观性、分析人类行为等,并且描述了 MMISM(多模态输入多任务输出室内场景理解模型)来解决室内环境数据量不足以及杂乱信息融合等问题,并表明 MMISM 在 3D 目标检测结果上优于传统单一任务模型。
Sep, 2022