VioLA：将视频与 2D LiDAR 扫描对齐

Nov, 2023

VioLA: Aligning Videos to 2D LiDAR Scans

Jun-Jee Chao, Selim Engin, Nikhil Chavan-Dafle, Bhoram Lee, Volkan Isler

TL;DR研究通过建立语义地图和利用图像序列与 LiDAR 扫描进行地点对齐的问题。提出了一种名为 VioLA 的方法，在固定高度提取用于注册到 LiDAR 地图的点。使用预训练的文本到图像修复模型和深度补全模型填补缺失的场景内容以支持姿态注册。在两个真实的 RGB-D 基准数据集以及一个大型办公场景的自录数据集上对 VioLA 进行评估。尤其值得注意的是，我们提出的场景补全模块将姿态注册性能提高了 20%。

Abstract

We study the problem of aligning a video that captures a local portion of an environment to the 2d lidar scan of the entire environment. We introduce a method (VioLA) that starts with building a →

video 2d lidar scan semantic map text-to-image inpainting pose registration

发现论文，激发创造

基于 2D-3D 线对应的先前 LiDAR 地图中的单目相机定位

本文提出了一种基于 2D-3D 线对应的高效单目相机在先前 LiDAR 地图中的定位方法，并使用位姿预测和离群值排除来优化相机位姿和 2D-3D 对应关系的投影误差，实验结果表明该方法可以在结构化环境中高效地估计相机位姿。

Apr, 2020

VidLA: 视频 - 语言对齐的大规模实现

我们提出了 VidLA，这是一种用于大规模视频 - 语言对齐的方法，通过在不同时间分辨率上使用一组数据令牌，以层次化的方式捕捉短程和长程的时间依赖关系，并通过简单的双塔架构，使用预训练的图像 - 文本基础模型来提高最终性能。此外，我们利用最近的 LLMs 构建了迄今为止规模最大的视频 - 语言数据集，包含不同长度的视频片段，以帮助在不同时间尺度下提取更好的表示。实验证明，我们的方法在多个检索基准上超过了现有的最先进方法，特别是在较长的视频上，并在分类基准上具有竞争力。

Mar, 2024

DVLO：深度视觉 - LiDAR 里程计，使用局部到全局特征融合和双向结构对齐

通过局部到全局的融合网络与双向结构对齐，本研究解决了视觉 - LiDAR 融合中由于两种模态之间内在数据结构不一致性而带来的挑战，取得了在 KITTI 里程计和 FlyingThings3D 场景流数据集上超过单模态和多模态方法的最新成果。

Mar, 2024

利用本地深度隐函数对 LiDAR 数据进行语义场景补全

本文提出了一种新型的场景分割网络，基于本地 Deep Implicit Functions 的方法，用于语义场景补全，并将其在经过语义注释的 LiDAR 扫描上验证了其性能的优越性。

Nov, 2020

同时进行地图和物体重建

本文提出了一种用于从 LiDAR 重建大规模城市场景的动态表面重建方法，通过全局优化降低预测表面与输入 LiDAR 扫描数据的距离，实现了对刚性移动物体的运动补偿，并展示了该系统在自动标记局部注释序列和生成难以标记问题的真实注释方面的应用。

Jun, 2024

基于几何一致性和语义感知对齐的 LiDAR - 相机全景分割

我们提出了第一个激光雷达 - 相机全景分割网络（LCPS），通过三阶段的激光雷达 - 相机融合策略，在 NuScenes 数据集上改进了约 6.9% 的 PQ 性能，进一步的实验证明了我们的新框架的有效性。

Aug, 2023

IMLS-SLAM: 基于 3D 数据的扫描匹配与建模

基于 3D LiDAR 数据的低漂移 SLAM 算法，使用扫描到模型匹配框架和隐式移动最小二乘（IMLS）表面表示，通过 KITTI 基准测试在全球漂移率仅为 0.69％。

Feb, 2018

紧凑的物体中心 LiDAR 位姿估计对于大尺度户外定位

使用极其少的存储要求进行 LiDAR 扫描的 3D 姿态估计以实现可扩展的映射和定位，通过将分割扫描的所有点聚类成语义对象并仅用其质心和语义类别表示，以此方式将每个 LiDAR 扫描简化为一个紧凑的四元向量集合，并通过基于自相关和互相关的对象匹配网络捕捉实体之间的几何和语义关系，通过加权奇异值分解（SVD）和随机采样一致性（RANSAC）恢复扫描之间的相对变换，通过在 KITTI 数据集上不同视点拍摄的点云和不同时间段的 KITTI 和 KITTI-360 之间进行本地化来演示这种表示对度量本地化是足够准确的，具有几乎一半的表示大小，具体为平均 1.33kB。

Mar, 2024

基于单目摄像机和单线激光雷达的大规模场景弱监督三维多人姿态估计

本文提出了一种基于单目摄像头和单个 LiDAR 的方法，用于大规模场景下的 3D 多人姿态估计。通过设计一种有效的多模态融合策略，并充分利用时间信息来指导网络学习自然和连贯的人类运动，以点云的固有几何约束为自我监督，用图像上的 2D 特征点进行弱监督，无需依赖于任何 3D 姿态注释。实验结果表明了该方法的优越性和泛化能力。

Nov, 2022

VolMap：基于 LiDAR 环境视图的实时语义分割模型

本文介绍了 VolMap，它是一种用于自主车辆中 3D LiDAR 环视视图系统的语义分割的实时方法。我们设计了一种经过优化的深度卷积神经网络，可以精确地分割由 360° LiDAR 设置产生的点云，其中输入包括作为输入通道的 LiDAR 高度层的体积视角。我们进一步研究了多 LiDAR 设置的使用及其对语义分割任务性能的影响。我们的评估是在包含 LiDAR cocoon 设置的大规模 3D 物体检测基准测试上进行的，以及 KITTI 数据集，其中点的分割标签来自 3D 边界框。我们展示了 VolMap 在高精度和实时运行在 CPU 上之间的优秀平衡。

Jun, 2019