城市景观 - 3D 上的联合 2D-3D 多任务学习：3D 检测、分割和深度估计

ICLRApr, 2023

城市景观 - 3D 上的联合 2D-3D 多任务学习：3D 检测、分割和深度估计

Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection, Segmentation, and Depth Estimation

Hanrong Ye, Dan Xu

TL;DRTaskPrompter 是一种多任务提示框架，通过使用 Cityscapes-3D 数据集实现联合 2D-3D 任务学习，以实现单眼 3D 车辆检测、语义分割和单眼深度估计的预测，为开发自动驾驶系统做出了积极的贡献，相较于单任务最先进方法表现出更强的性能，并在挑战性的 3D 检测和深度估计任务上建立了新的最先进结果。

Abstract

This report serves as a supplementary document for taskprompter, detailing its implementation on a new joint 2D-3D multi-task learning benchmark based on →

taskprompter multi-task learning cityscapes-3d monocular 3d vehicle detection autonomous driving

发现论文，激发创造

多任务多传感器融合的三维物体检测

本文提出了一种利用多个相关任务进行准确多传感器 3D 目标检测的方法，并展示了一种全面的可学习体系结构，用于推理 2D 和 3D 目标检测以及地面估计和深度完成，在各个层面上融合信息有助于学习更好的表示。实验表明，所有这些任务是互补的，可以在保持实时性的同时，在 2D、3D 和 BEV 目标检测方面领先 KITTI 基准。

Dec, 2020

每个数据集都很重要：通过联合数据集训练扩展单目三维物体检测

通过训练一个鲁棒的单目三维物体检测模型，采用包括多样化的三维和二维数据集、有选择地训练不同类别注释的数据集和使用二维标签的伪三维训练方法，我们可以获得具有强大泛化能力和对只有二维标签的新数据集表现出色的模型。

Oct, 2023

深度多任务架构：用于 2D 和 3D 人体感知的集成

该研究提出了一种深度多任务架构，用于在单眼图像中全自动进行 2D 和 3D 人体感应，包括识别和重建，通过多任务损失支持所有组件的联合训练以提高准确性和鲁棒性，实验结果显示该模型在所有处理水平上均可达到最先进的结果且在野外表现不亚于基于 RGB-D 数据的最先进商用 Kinect 系统。

Jan, 2017

VEnvision3D：用于三维多任务模型研究的合成感知数据集

开发一个统一的多任务基础模型已经成为计算机视觉研究中的一个关键挑战。本论文介绍了 VEnvision3D，一个用于多任务学习的大型 3D 合成感知数据集，包括深度补全、分割、上采样、场景识别和 3D 重建。对于每个任务的数据在相同场景下收集，使得任务在所使用的数据上本质上具有对齐的特点，从而可以探索多任务模型甚至基础模型的潜力。基于所提出数据集的特点，提出了几个新的基准测试，对端到端模型进行了广泛研究，揭示了未来研究的新观察、挑战和机会。此外，设计了一个简单的多任务网络，以展示 VEnvision3D 对基础模型可以提供的能力。我们的数据集和代码将在接受后开源。

Feb, 2024

路边单目三维检测通过 2D 检测提示

通过使用 2D 检测作为指令，我们提出了一种新颖且简单的方法来解决沿路单目三维检测问题，该方法在两个大规模路边三维检测基准上取得了当前最先进的性能。

Apr, 2024

3DMV：三维多视角联合预测在三维语义场景分割中的应用

提出了一种名为 3DMV 的新型方法，使用联合 3D - 多视图预测网络对室内环境中 RGB-D 扫描进行三维语义场景分割。通过将 RGB 和几何特征相结合，并以一个可微的 backprojection 层将其映射到三维网格中，这种联合二维 - 三维架构实现了比现有基线方法显著更好的结果。

Mar, 2018

利用任务适应性注意力生成器的实时自主驾驶多任务学习

本文介绍了一种新的实时多任务网络，包括单目三维物体检测、语义分割和密集深度估计，通过引入任务自适应注意力生成器来解决多任务学习中普遍存在的负迁移问题，并利用硬参数共享方法提高效率，能够同时处理多个任务，尤其是三维物体检测，并保持实时处理速度。经过在 Cityscapes-3D 数据集上的严格优化和深入剖析研究，我们的网络始终优于各种基准模型。

Mar, 2024

针对人群场景中基于深度的六自由度物体姿态和联合注册的多任务深度网络

本研究提出了一种基于多任务学习的深度学习神经网络结构，用于从随机堆放的物品中恢复多个实例的 6D 姿态，通过在深度感知模式下进行 2D 检测、深度估计和 3D 姿态估计的多子任务联合学习，以及多个物体的联合注册，以学习众多遮挡情况，实验结果表明，与现有方法相比，在合成和真实数据集上平均精度提高了 15-31 %。

Jun, 2018

通过提问实现三维视觉与语言理解的统一化

通过统一各种三维场景表示方法，使用可提示的查询（Promptable Queries）解决低级实例分割至高级推理与规划等广泛的三维视觉语言任务的统一模型（PQ3D）。在十个多样化的三维视觉语言数据集上进行测试，PQ3D 在这些任务中表现出令人印象深刻的性能，并在大多数基准测试中创造了新记录。

May, 2024

目标语义学赋予我们所需的深度：多任务方法实现地面深度补全

该论文提出了一种基于多任务学习的编码器模型的方法，通过特征共享来同时进行航空深度完成和目标检测，进而提高无人机 3D 建图的资源利用效率，该方法实验结果表明在特定情况下，比单任务的深度完成算法表现更好。

Apr, 2023