从单目深度图像进行目标检测和语义分割

Oct, 2016

从单目深度图像进行目标检测和语义分割

Exploiting Depth from Single Monocular Images for Object Detection and Semantic Segmentation

Yuanzhouhan Cao, Chunhua Shen, Heng Tao Shen

TL;DR本研究证明，在计算机视觉中，利用单目图像估计出深度信息与 RGB 图像结合能够显著提高目标检测和语义分割的精度。

Abstract

Augmenting rgb data with measured depth has been shown to improve the performance of a range of tasks in computer vision including object detecti

rgb depth object detection semantic segmentation monocular images

发现论文，激发创造

基于 RGB-D 图像学习丰富特征的物体检测和分割

本文研究使用语义丰富的图像和深度特征进行 RGB-D 图像目标检测问题。我们提出了一种新的地心嵌入深度图像的方法，该方法编码了每个像素相对于地面的高度和重力角度，以及水平视差。我们证明了这种地心嵌入方法比使用原始深度图像更适用于使用卷积神经网络进行特征表示学习。最后，我们使用对象检测器的输出在现有的超像素分类框架中进行语义场景分割，并在我们研究的对象类别中实现了 24％的相对改进。

Jul, 2014

室内语义分割使用深度信息

采用多尺度卷积神经网络直接从图像和深度信息中学习特征实现室内场景的多类别分割，并在 NYU-v2 深度数据集上取得了 64.5% 的准确率，充分说明了适当的硬件（如 FPGA）可以实现实时处理。

Jan, 2013

基于深度学习的单目图像和视频深度估计方法：综述

该论文综述了基于深度学习的单个 RGB 图像和视频的深度估计方法，包括输入输出模态、网络结构和学习方法的分类，历史里程碑，以及现有方法使用的流程、数据集和评估指标。

Jun, 2024

基于自监督学习的单目图像深度估计

这个研究探讨了如何通过使用卷积神经网络和其它技术来优化和扩展基于深度学习的深度估计模型，以提高相机获取的图像的三维深度感知的精度。

Apr, 2023

神经网络 RGB->D 感知：从视频摄像机中获得深度和不确定性

本文提出了一种基于深度学习和贝叶斯滤波的方法，从单目视频流中连续估计每个像素的深度和不确定度概率分布，通过积累时间降低深度不确定度，提高准确性和鲁棒性，该方法可将普通 RGB 相机转换成 RGB-D 相机，并实现更为精确、稳定、泛化性更好的 3D 场景重建。

Jan, 2019

单目深度估计：综述

论文综述了五篇应用不同技术（包括监督、弱监督和无监督学习技术）尝试解决单目深度估计问题的论文，并比较这些论文之间的改进和理解，最后探讨了可能有助于更好地解决这一问题的潜在改进。

Jan, 2019

基于 RBF 权重的 RGB-D 物体检测超插深卷积

通过使用深度传感器的增强现实设备，我们提出了一种实时的 RGB-D 物体检测模型，其中包括深度引导的超卷积和基于上采样的可训练融合层，提高了从原始深度图中提取深度和彩色图像特征的效率和性能，并在 NYU Depth v2 数据集上表现优于其他基于 RGB-D 的物体检测模型，在 SUN RGB-D 数据集上表现相当出色，并且在新的室外 RGB-D 物体检测数据集上也表现出色。同时，我们的模型在来自 CAD 模型和图像生成的多样化合成数据的性能评估中显示出了应用于增强现实的潜力。

Sep, 2023

使用双像素学习单目摄像机深度估计

通过使用现代摄像头上越来越常见的双像素自动对焦硬件，识别深度估计中的不确定性并开发了一种方法解决它，使基于学习的方法可以很好地应用于双像素图像，提高了成像质量。

Apr, 2019

基于多模态注意力融合的 RGB - 深度图像语义分割模型

本文提出了一种有效的编码器 - 解码器模型和基于注意力的融合模块，以集成 RGB-Depth 图像的特征，从而提高语义分割的精度和计算效率。实验结果表明，该模型在计算成本和模型大小方面大大超越了现有的最先进模型，并且在准确性方面具有良好的性能。

Dec, 2019

稀疏到密集：从稀疏深度样本和单幅图像中预测深度

本文论述了如何通过使用 RGB-D 原始数据，采用单个深度回归网络来学习来自稀疏深度范例的密集深度估计，并研究了样本数量对预测准确性的影响，提出的算法有两个应用：转换稀疏地图为密集地图和 LiDAR 的超分辨率。

Sep, 2017