MultiNet: 自主驾驶实时联合语义推理

Dec, 2016

MultiNet: 自主驾驶实时联合语义推理

MultiNet: Real-time Joint Semantic Reasoning for Autonomous Driving

Marvin Teichmann, Michael Weber, Marius Zoellner, Roberto Cipolla, Raquel Urtasun

TL;DR本文提出了一种联合分类、检测和语义分割的方法，其中编码器在三个任务之间共享。该方法非常简单，可以端到端训练，在具有挑战性的 KITTI 数据集中表现良好，在道路分割任务中优于现有技术。而且，我们的方法非常高效，执行所有任务只需要不到 100 毫秒。

Abstract

While most approaches to semantic reasoning have focused on improving performance, in this paper we argue that computational times are very important in order to enable real time applications such as

semantic reasoning real time applications autonomous driving joint classification semantic segmentation

发现论文，激发创造

自动驾驶快速场景理解

本文提出一种基于 ENet 的实时高效实现，可以同时解决语义场景分割、实例分割和单目深度估计三个自动驾驶相关任务，不会因同时运行多个任务而牺牲准确性。

Aug, 2017

自动驾驶的实时联合目标检测和语义分割网络

本论文提出了一种联合多任务网络设计，用于同时学习目标检测和语义分割，以实现低功耗嵌入式 SOC 上的实时性能，并在两个公共数据集（KITTI，Cityscapes）和私人鱼眼相机数据集中评估提出的网络。

Jan, 2019

利用任务适应性注意力生成器的实时自主驾驶多任务学习

本文介绍了一种新的实时多任务网络，包括单目三维物体检测、语义分割和密集深度估计，通过引入任务自适应注意力生成器来解决多任务学习中普遍存在的负迁移问题，并利用硬参数共享方法提高效率，能够同时处理多个任务，尤其是三维物体检测，并保持实时处理速度。经过在 Cityscapes-3D 数据集上的严格优化和深入剖析研究，我们的网络始终优于各种基准模型。

Mar, 2024

RTSeg：实时语义分割比较研究

本文提出了一个实时语义分割基准测试框架，包括特征提取和解码方法的分离设计，采用不同的网络架构和分割方法，在城市场景的 Cityscapes 数据集上进行了实验，并展示了与 SegNet 相比可实现 143 倍 GFLOPS 减少的优势。

Mar, 2018

S$^3$M-Net: 自主驾驶中语义分割与立体匹配的联合学习

本文介绍了一种新的联合学习框架 S^3M-Net，用于同时进行语义分割和立体匹配，通过特征共享和融合来提高整体场景理解能力，通过最小化语义一致性引导损失来训练整个联合学习框架，在 vKITTI2 和 KITTI 数据集上进行实验，证明了该框架的有效性和超越其他单任务网络的性能。

Jan, 2024

为实时道路图像语义分割辩护：基于预训练 ImageNet 架构

本文提出了一种基于 light-weight general purpose architecture、light-weight upsampling 以及融合多重分辨率的特征来扩大接受域的语义分割方法，在多个数据集上获得显着的优越性能和较高的 MIoU 和帧率。

Mar, 2019

驾驶场景感知网络：实时联合检测、深度估计和语义分割

本文提出一种名为 DSPNet 的模型，利用共享卷积架构实现在单张图片中同时进行物体检测、深度估计和像素级语义分割，达到了较高的精度和效率，适用于自动驾驶等领域。

Mar, 2018

实时语义分割的空间助理编码器 - 解码器网络

自动驾驶汽车的语义分割是理解周围环境的关键技术。研究通过融合编码器 - 解码器和两通道架构，提出了空间助理编码器 - 解码器网络（SANet），并在设计中利用不同分辨率的特征提取和池化模块以优化特征提取和实现语义提取，最终在实时 CamVid 和 Cityscape 数据集上达到竞争性的结果。

Sep, 2023

使用不对称标注的实时联合语义分割和深度估计

利用深度学习模型在机器人中作为感知信息提取器的部署，有许多困难之处。本文着重探讨了其中三个最显著的障碍，即如何将单个模型适应于同时执行多个任务的需求、如何实现实时性、以及如何使用具有不对等标注数量的非对称数据集。通过使用实时语义分割网络和知识蒸馏的简单解决方案，我们将这些障碍一一克服。最终，我们的系统可以方便地扩展，使用单个模型同时处理更多任务和未来更多的数据集，能够在室内和室外分别执行深度估计和分割，并在 640x480 像素的输入上只需要一个前向通道即可实现 13ms 和 6.5 GFLOPs 成本的效果，从而直接将其用于场景的 3D 语义重建中。

Sep, 2018

实时语义立体匹配

研究表明，语义立体匹配比独立任务能更好地了解机器人、自我导航、增强现实等领域的场景理解。本文提出了一种单一的紧凑型和轻量级架构，通过多阶段的自上而下的估算，使得在任何硬件上和任何应用中都可以获得非常快速的推理，并对特定的应用要求进行准确度和速度的权衡。

Oct, 2019