使用不对称标注的实时联合语义分割和深度估计

Sep, 2018

使用不对称标注的实时联合语义分割和深度估计

Real-Time Joint Semantic Segmentation and Depth Estimation Using Asymmetric Annotations

Vladimir Nekrasov, Thanuja Dharmasiri, Andrew Spek, Tom Drummond, Chunhua Shen...

TL;DR利用深度学习模型在机器人中作为感知信息提取器的部署，有许多困难之处。本文着重探讨了其中三个最显著的障碍，即如何将单个模型适应于同时执行多个任务的需求、如何实现实时性、以及如何使用具有不对等标注数量的非对称数据集。通过使用实时语义分割网络和知识蒸馏的简单解决方案，我们将这些障碍一一克服。最终，我们的系统可以方便地扩展，使用单个模型同时处理更多任务和未来更多的数据集，能够在室内和室外分别执行深度估计和分割，并在 640x480 像素的输入上只需要一个前向通道即可实现 13ms 和 6.5 GFLOPs 成本的效果，从而直接将其用于场景的 3D 语义重建中。

Abstract

Deployment of deep learning models in robotics as sensory information extractors can be a daunting task to handle, even using generic GPU cards. Here, we address three of its most prominent hurdles, namely, i) th

deep learning robotics real-time semantic segmentation knowledge distillation

发现论文，激发创造

实时语义立体匹配

研究表明，语义立体匹配比独立任务能更好地了解机器人、自我导航、增强现实等领域的场景理解。本文提出了一种单一的紧凑型和轻量级架构，通过多阶段的自上而下的估算，使得在任何硬件上和任何应用中都可以获得非常快速的推理，并对特定的应用要求进行准确度和速度的权衡。

Oct, 2019

RTSeg：实时语义分割比较研究

本文提出了一个实时语义分割基准测试框架，包括特征提取和解码方法的分离设计，采用不同的网络架构和分割方法，在城市场景的 Cityscapes 数据集上进行了实验，并展示了与 SegNet 相比可实现 143 倍 GFLOPS 减少的优势。

Mar, 2018

驾驶场景感知网络：实时联合检测、深度估计和语义分割

本文提出一种名为 DSPNet 的模型，利用共享卷积架构实现在单张图片中同时进行物体检测、深度估计和像素级语义分割，达到了较高的精度和效率，适用于自动驾驶等领域。

Mar, 2018

MultiNet: 自主驾驶实时联合语义推理

本文提出了一种联合分类、检测和语义分割的方法，其中编码器在三个任务之间共享。该方法非常简单，可以端到端训练，在具有挑战性的 KITTI 数据集中表现良好，在道路分割任务中优于现有技术。而且，我们的方法非常高效，执行所有任务只需要不到 100 毫秒。

Dec, 2016

使用深度卷积网络进行联合语义分割和深度估计

本研究采用多尺度卷积神经网络，提出一种单一 RGB 图像用于深度估计和语义分割的深度学习模型，该模型采用单一损失函数进行训练，同时使用完全连接的 CRF 捕捉语义和深度线索之间的上下文关系和交互作用，实现更精确的结果。在 NYUDepth V2 数据集上进行实验，该模型在语义分割方面表现优于最先进方法，在深度估计任务上实现可比较的结果。

Apr, 2016

DeLS-3D: 3D 语义地图的深度定位与分割

该研究提出了一种基于深度学习的统一框架，通过将相机视频、运动传感器（GPS/IMU）和三维语义地图进行传感器融合，以实现自主驾驶、自我定位和场景分类等多个应用领域中场景解析和相机姿态同时处理的目的。研究使用的技术包括渲染技术，使用相机姿态和三维语义地图生成标注地图，并在深度神经网络中进行联合训练，以提高姿态估计精度。该研究表明，相较于单一传感器，传感器融合对于目标跟踪及姿态估计具有更高的鲁棒性和准确性。

May, 2018

RT-MonoDepth: 嵌入式系统上的实时单目深度估计

在本文中，我们提出了两种高效且轻量级的编码器 - 解码器网络结构，RT-MonoDepth 和 RT-MonoDepth-S，用于降低嵌入式系统上的计算复杂性和延迟，以实现实时深度估计。我们的方法论表明，在单个 RGB 图像的更快推断速度下，可以达到类似于先前最先进深度估计作品的准确性。与现有的快速单目深度估计方法相比，我们提出的网络 RT-MonoDepth 和 RT-MonoDepth-S 在分辨率为 640×192 的单个 RGB 图像上在 NVIDIA Jetson Nano 上运行速度为 18.4＆30.5 FPS，在 NVIDIA Jetson AGX Orin 上运行速度为 253.0＆364.1 FPS，并在 KITTI 数据集上达到相对最先进的准确性。据作者所知，本文在准确性和最快推断速度方面都达到了最好的水平。

Aug, 2023

Complexer-YOLO：基于语义点云的实时 3D 目标检测和跟踪

本文提出了一种融合神经网络、视觉语义分割、在自主驾驶场景下的 3D 目标检测方法，引入了一种名为 SRTs 的快速评估指标，并采用状态优化的多目标特征跟踪机制，实现了高精度和实时性的平衡，并在 KITTI 基准测试中验证了方法的有效性。同时，该方法首次将视觉语义与 3D 目标检测相融合。

Apr, 2019

自动驾驶快速场景理解

本文提出一种基于 ENet 的实时高效实现，可以同时解决语义场景分割、实例分割和单目深度估计三个自动驾驶相关任务，不会因同时运行多个任务而牺牲准确性。

Aug, 2017

Veritatem Dies Aperit- 一种基于多任务几何和语义场景理解的时域一致深度预测方法

本文提出了一种基于多任务学习的方法，能够联合进行几何和语义场景理解，包括单眼深度估计、深度补全和语义场景分割，通过一个时间上连续受限的循环网络，利用一系列复杂的跳跃连接、对抗性训练和顺序帧重复的时间限制同时产生一致的深度和语义类标签，大量实验评估表明相比其他当代最先进的技术，本方法的有效性。

Mar, 2019