使用 RGB-D 相机的多视角深度学习实现一致的语义映射
本文通过重新审视三维网格的经典多视图表示方法,研究了几种技术,使其可用于三维语义网格的语义分割。给定一个从 RGBD 传感器重建的三维网格,本文方法有效地选取不同的虚拟视图,并渲染多个二维通道,以训练出有效的二维语义分割模型;最终将多视讯预测的特征融合到三维网格顶点上,预测网格语义分割标签。
Jul, 2020
提出了一种新颖的基于超像素的多视角卷积神经网络,通过利用同一场景的其他视角信息生成单个图像的高质量分割,并且利用光流和基于图像边界的超像素计算区域对应关系,提出了一种新颖的时空池化层对空间和时间信息进行聚合,实现对图像的分割。经过对 NYU-Depth-V2 数据集和 SUN3D 数据集的评估,与各种单视图和多视图方法相比,不仅有严格的改进,同时也表明在多视图和单视图预测时利用标记帧的好处。
Apr, 2016
提出了一种用于 RGB-D 语义图像合成的多模态数据生成器,并通过鉴别器来确保标签图和生成图像之间的语义一致性及真实图像和生成图像之间的感知相似性,实验证明该方法在 RGB-D 语义分割方案中表现出了显著优势,以及通过在训练过程中混合真实图像和生成图像可以显著提高方案的准确性。
Aug, 2023
通过利用深度融合技术和深度学习的物体检测和语义分割算法,我们成功地解决了在复杂场景中感知目标物体的问题,并在 Amazon Picking Challenge2016 和紧急响应场景数据集上进行了验证。
Oct, 2018
本文提出了一种有效的编码器 - 解码器模型和基于注意力的融合模块,以集成 RGB-Depth 图像的特征,从而提高语义分割的精度和计算效率。实验结果表明,该模型在计算成本和模型大小方面大大超越了现有的最先进模型,并且在准确性方面具有良好的性能。
Dec, 2019
使用卷积神经网络,采用 RGB-D 架构,通过两个不同模式的 CNN 处理流程结合延迟融合网络来识别物体,同时引入多阶段训练方法以及进行数据增强方案,使得处理 RGB-D 图像更加健壮,同时在真实嘈杂环境中取得了最先进的识别结果。
Jul, 2015
提出了一种名为 3DMV 的新型方法,使用联合 3D - 多视图预测网络对室内环境中 RGB-D 扫描进行三维语义场景分割。通过将 RGB 和几何特征相结合,并以一个可微的 backprojection 层将其映射到三维网格中,这种联合二维 - 三维架构实现了比现有基线方法显著更好的结果。
Mar, 2018
该研究提出了一种基于深度学习的统一框架,通过将相机视频、运动传感器(GPS/IMU)和三维语义地图进行传感器融合,以实现自主驾驶、自我定位和场景分类等多个应用领域中场景解析和相机姿态同时处理的目的。研究使用的技术包括渲染技术,使用相机姿态和三维语义地图生成标注地图,并在深度神经网络中进行联合训练,以提高姿态估计精度。该研究表明,相较于单一传感器,传感器融合对于目标跟踪及姿态估计具有更高的鲁棒性和准确性。
May, 2018
本文提出了一种使用 RGBD sensing 的增量学习方法来进行开放式世界的语义分割,使用三维地图表示方法来标记没有语义标签的区域,实现对新的物体类别的识别及聚类。通过实验验证,该方法能够正确聚类已知和未知类别的对象,并且比现有的监督式方法具有更快的处理时间及更高的性能。
Jul, 2019
提出了一种名为 MV6D 的多视角 6D 姿态估计方法,该方法使用多个视角的 RGB-D 图像,通过 DenseFusion 层融合每个视角的图像,可以精确预测杂乱场景中所有对象的 6D 姿态.
Aug, 2022