室内语义分割使用深度信息

Jan, 2013

Indoor Semantic Segmentation using depth information

Camille Couprie, Clément Farabet, Laurent Najman, Yann LeCun

TL;DR采用多尺度卷积神经网络直接从图像和深度信息中学习特征实现室内场景的多类别分割，并在 NYU-v2 深度数据集上取得了 64.5% 的准确率，充分说明了适当的硬件（如 FPGA）可以实现实时处理。

Abstract

This work addresses multi-class segmentation of indoor scenes with RGB-D inputs. While this area of research has gained much attention recently, most works still rely on hand-crafted features. In contrast, we app

multi-class segmentation rgb-d inputs multiscale convolutional network indoor scenes real-time processing

发现论文，激发创造

基于 RGB-D 室内数据的深度学习三维实例分割

通过将深度学习与 RGB-D 数据相结合，提出了一种用于高效 3D 实例分割的新方法，该方法通过点状渲染模块将 2D 区域卷积神经网络（Mask R-CNN）模型与深度信息集成，可以识别和分割对象的 3D 实例，实验证明该方法对于支持机器人和智能系统中的物体处理非常有益。

Jun, 2024

基于多模态注意力融合的 RGB - 深度图像语义分割模型

本文提出了一种有效的编码器 - 解码器模型和基于注意力的融合模块，以集成 RGB-Depth 图像的特征，从而提高语义分割的精度和计算效率。实验结果表明，该模型在计算成本和模型大小方面大大超越了现有的最先进模型，并且在准确性方面具有良好的性能。

Dec, 2019

使用深度卷积网络进行联合语义分割和深度估计

本研究采用多尺度卷积神经网络，提出一种单一 RGB 图像用于深度估计和语义分割的深度学习模型，该模型采用单一损失函数进行训练，同时使用完全连接的 CRF 捕捉语义和深度线索之间的上下文关系和交互作用，实现更精确的结果。在 NYUDepth V2 数据集上进行实验，该模型在语义分割方面表现优于最先进方法，在深度估计任务上实现可比较的结果。

Apr, 2016

室内场景实时渐进式 3D 语义分割

本文提出了一种高效而健壮的技术，实现了 3D 室内场景的即时密集语义分割和重建，该方法基于高效的超体素聚类方法和来自结构和对象线索的高阶约束的条件随机场，无需预先计算即可进行渐进式密集语义分割。通过对 SceneNN 和 ScanNet 数据集中的不同室内场景进行广泛评估，证明了该技术在定性和定量实验中始终能够产生最先进的分割结果。

Apr, 2018

从单目深度图像进行目标检测和语义分割

本研究证明，在计算机视觉中，利用单目图像估计出深度信息与 RGB 图像结合能够显著提高目标检测和语义分割的精度。

Oct, 2016

使用反卷积网络学习 RGB-D 语义分割的公共和特定特征

本文在室内图像的 RGB-D 语义分割问题中，通过利用可以预测像素级类别标签的反卷积网络，开发了一种反卷积多模态新结构并提出了一种新的特征转换网络。该特征转换网络通过在两个模态之间发现共同特征并表征每种特性的方式将两种模态相关联。新网络在 NYU 深度数据集 V1 和 V2 上取得了有竞争力的分割精度。

Aug, 2016

面向高效 RGB-D 语义分割的空间信息引导自适应上下文感知网络

提出了一种有效的轻量级编码器 - 解码器网络以及其他相关模块，用于在移动机器人中进行 RGB-D 语义分割，通过跨模态相关性和补充线索可以准确提取多层次 RGB-D 特征，实验结果表明该方法在分割准确性、推理时间和参数方面具有更好的权衡。

Aug, 2023

STD2P: 利用时空数据驱动池化进行 RGBD 语义分割

提出了一种新颖的基于超像素的多视角卷积神经网络，通过利用同一场景的其他视角信息生成单个图像的高质量分割，并且利用光流和基于图像边界的超像素计算区域对应关系，提出了一种新颖的时空池化层对空间和时间信息进行聚合，实现对图像的分割。经过对 NYU-Depth-V2 数据集和 SUN3D 数据集的评估，与各种单视图和多视图方法相比，不仅有严格的改进，同时也表明在多视图和单视图预测时利用标记帧的好处。

Apr, 2016

使用 RGB-D 相机的多视角深度学习实现一致的语义映射

本文提出一种从多个 RGB-D 视图中进行对象类语义分割的新方法，使用深度学习训练神经网络进行预测，同时借助于 RGB-D 的 SLAM 获取摄像机轨迹，实现多视图一致性训练和测试。实验结果表明，与单视图基准线相比，深度特征池化和多视角融合可以在 NYUDv2 数据集上实现单视图语义分割和多视图语义融合的最新性能。

Mar, 2017

基于 RGB-D 图像学习丰富特征的物体检测和分割

本文研究使用语义丰富的图像和深度特征进行 RGB-D 图像目标检测问题。我们提出了一种新的地心嵌入深度图像的方法，该方法编码了每个像素相对于地面的高度和重力角度，以及水平视差。我们证明了这种地心嵌入方法比使用原始深度图像更适用于使用卷积神经网络进行特征表示学习。最后，我们使用对象检测器的输出在现有的超像素分类框架中进行语义场景分割，并在我们研究的对象类别中实现了 24％的相对改进。

Jul, 2014