室内场景实时渐进式 3D 语义分割
通过实时深度数据重建场景的完整三维模型存在遮挡缺失的问题。我们提出了一个基于深度图输入序列、支持实时增量和语义场景完成的框架,其中利用一种新颖的神经架构以及基于体素状态的方式来识别精确、高效的语义完成,并将其与全局三维模型相融合,从而最终达到精准高效的三维语义场景完整。
Oct, 2020
提出一种基于 RGBD 重建和语义分割的机器人操作主动理解未知室内场景的新方法,利用离线估计的离散视野分数场来驱动机器人的勘探扫描,结合基于体素的实时语义标注,优化遍历路径和相机轨迹,从而实现高效准确的在线场景解析。
Jun, 2019
本文介绍了一种使用 NVIDIA TensorRT 进行优化的高效且稳健的 RGB-D 分割方法,该方法可作为场景分析系统的公共初始处理步骤。我们通过使用 ESANet 在 NYUv2 和 SUNRGB-D 室内数据集上进行评估,展示了 RGB-D 分割优于仅处理 RGB 图像的效果,并证明当网络架构精心设计时仍可实时完成。此外,我们在 Cityscapes 的室外数据集上进行评估,显示了我们的方法也适用于其他应用领域,并展示了我们在一个室内应用场景中的定性结果.
Nov, 2020
我们提出了一种在线的三维语义分割方法,可以从连续的 RGB-D 帧流中增量重建三维语义地图,适用于具有实时约束的场景,例如机器人技术或混合现实。我们的方法通过联合估计每帧的几何和语义标签来有效提取输入 RGB-D 视频流的信息,并利用 2D 输入和局部 3D 领域的差异进行对语义实体的推理,进而预测场景的增量更新并整合到全局场景表示中,实验结果表明我们的方法相对于现有的在线方法在本地区域产生了改进,并且展示了互补信息可以提升性能的证据。
Nov, 2023
本文提出新的计算机视觉方法,使 3D 语义分割可以更好地理解具有更多类别和自然分布的真实环境,并在新的扩展基准上测试,使用语言驱动的预训练方法使特征更鲁棒。实验结果表明,我们的方法在提出的基准上始终优于现有技术。
Apr, 2022
采用多尺度卷积神经网络直接从图像和深度信息中学习特征实现室内场景的多类别分割,并在 NYU-v2 深度数据集上取得了 64.5% 的准确率,充分说明了适当的硬件(如 FPGA)可以实现实时处理。
Jan, 2013
自动驾驶车辆中,实时理解自身车辆周围的三维环境至关重要。本文介绍一种从前视二维相机图像和 LiDAR 扫描中提取特征并使用稀疏卷积网络(Minkowski Engine)进行三维语义占用预测的方法,以解决实时应用中的高计算需求和稀疏场景完整性的问题。
Mar, 2024
本研究介绍了 SEGCloud,一种利用三线性插值和完全连接条件随机场等方式得到端到端三维点级分割的框架,可实现对室内和室外三维数据集进行准确的场景标注。
Oct, 2017
该研究提出了一种基于深度学习的统一框架,通过将相机视频、运动传感器(GPS/IMU)和三维语义地图进行传感器融合,以实现自主驾驶、自我定位和场景分类等多个应用领域中场景解析和相机姿态同时处理的目的。研究使用的技术包括渲染技术,使用相机姿态和三维语义地图生成标注地图,并在深度神经网络中进行联合训练,以提高姿态估计精度。该研究表明,相较于单一传感器,传感器融合对于目标跟踪及姿态估计具有更高的鲁棒性和准确性。
May, 2018
本论文将最新的深度学习方法与基于视频流的半稠密 SLAM 相结合,在室内 / 室外数据集中得到了更好的 2D 语义标签识别,无需针对序列中的每一帧获得语义分割,其时间复杂度也得以合理控制。
Nov, 2016