VioLA:将视频与 2D LiDAR 扫描对齐
本文提出了一种基于 2D-3D 线对应的高效单目相机在先前 LiDAR 地图中的定位方法,并使用位姿预测和离群值排除来优化相机位姿和 2D-3D 对应关系的投影误差,实验结果表明该方法可以在结构化环境中高效地估计相机位姿。
Apr, 2020
我们提出了 VidLA,这是一种用于大规模视频 - 语言对齐的方法,通过在不同时间分辨率上使用一组数据令牌,以层次化的方式捕捉短程和长程的时间依赖关系,并通过简单的双塔架构,使用预训练的图像 - 文本基础模型来提高最终性能。此外,我们利用最近的 LLMs 构建了迄今为止规模最大的视频 - 语言数据集,包含不同长度的视频片段,以帮助在不同时间尺度下提取更好的表示。实验证明,我们的方法在多个检索基准上超过了现有的最先进方法,特别是在较长的视频上,并在分类基准上具有竞争力。
Mar, 2024
通过局部到全局的融合网络与双向结构对齐,本研究解决了视觉 - LiDAR 融合中由于两种模态之间内在数据结构不一致性而带来的挑战,取得了在 KITTI 里程计和 FlyingThings3D 场景流数据集上超过单模态和多模态方法的最新成果。
Mar, 2024
本文提出了一种新型的场景分割网络,基于本地 Deep Implicit Functions 的方法,用于语义场景补全,并将其在经过语义注释的 LiDAR 扫描上验证了其性能的优越性。
Nov, 2020
本文提出了一种用于从 LiDAR 重建大规模城市场景的动态表面重建方法,通过全局优化降低预测表面与输入 LiDAR 扫描数据的距离,实现了对刚性移动物体的运动补偿,并展示了该系统在自动标记局部注释序列和生成难以标记问题的真实注释方面的应用。
Jun, 2024
我们提出了第一个激光雷达 - 相机全景分割网络(LCPS),通过三阶段的激光雷达 - 相机融合策略,在 NuScenes 数据集上改进了约 6.9% 的 PQ 性能,进一步的实验证明了我们的新框架的有效性。
Aug, 2023
基于 3D LiDAR 数据的低漂移 SLAM 算法,使用扫描到模型匹配框架和隐式移动最小二乘(IMLS)表面表示,通过 KITTI 基准测试在全球漂移率仅为 0.69%。
Feb, 2018
使用极其少的存储要求进行 LiDAR 扫描的 3D 姿态估计以实现可扩展的映射和定位,通过将分割扫描的所有点聚类成语义对象并仅用其质心和语义类别表示,以此方式将每个 LiDAR 扫描简化为一个紧凑的四元向量集合,并通过基于自相关和互相关的对象匹配网络捕捉实体之间的几何和语义关系,通过加权奇异值分解(SVD)和随机采样一致性(RANSAC)恢复扫描之间的相对变换,通过在 KITTI 数据集上不同视点拍摄的点云和不同时间段的 KITTI 和 KITTI-360 之间进行本地化来演示这种表示对度量本地化是足够准确的,具有几乎一半的表示大小,具体为平均 1.33kB。
Mar, 2024
本文提出了一种基于单目摄像头和单个 LiDAR 的方法,用于大规模场景下的 3D 多人姿态估计。通过设计一种有效的多模态融合策略,并充分利用时间信息来指导网络学习自然和连贯的人类运动,以点云的固有几何约束为自我监督,用图像上的 2D 特征点进行弱监督,无需依赖于任何 3D 姿态注释。实验结果表明了该方法的优越性和泛化能力。
Nov, 2022
本文介绍了 VolMap,它是一种用于自主车辆中 3D LiDAR 环视视图系统的语义分割的实时方法。我们设计了一种经过优化的深度卷积神经网络,可以精确地分割由 360° LiDAR 设置产生的点云,其中输入包括作为输入通道的 LiDAR 高度层的体积视角。我们进一步研究了多 LiDAR 设置的使用及其对语义分割任务性能的影响。我们的评估是在包含 LiDAR cocoon 设置的大规模 3D 物体检测基准测试上进行的,以及 KITTI 数据集,其中点的分割标签来自 3D 边界框。我们展示了 VolMap 在高精度和实时运行在 CPU 上之间的优秀平衡。
Jun, 2019