自动驾驶统一感知中基于视觉样本的任务提示

CVPRMar, 2023

自动驾驶统一感知中基于视觉样本的任务提示

Visual Exemplar Driven Task-Prompting for Unified Perception in Autonomous Driving

Xiwen Liang, Minzhe Niu, Jianhua Han, Hang Xu, Chunjing Xu...

TL;DR本文通过对四项常见自动驾驶感知任务（物体检测，语义分割，可行驶区域分割和车道检测）的大规模驾驶数据集的广泛分析，提出了一种有效的多任务学习框架，即 VE-Prompt，该框架通过特定于任务的提示引入视觉示例来指导模型向学习高质量的任务特定表示方向发展，并在视觉上提高了目标类别的精度和性能优越于单任务模型。

Abstract

multi-task learning has emerged as a powerful paradigm to solve a range of tasks simultaneously with good efficiency in both computation resources and inference time. However, these algorithms are designed for different tasks mostly not within the scope of →

multi-task learning autonomous driving perception tasks visual exemplars ve-prompt

发现论文，激发创造

利用任务适应性注意力生成器的实时自主驾驶多任务学习

本文介绍了一种新的实时多任务网络，包括单目三维物体检测、语义分割和密集深度估计，通过引入任务自适应注意力生成器来解决多任务学习中普遍存在的负迁移问题，并利用硬参数共享方法提高效率，能够同时处理多个任务，尤其是三维物体检测，并保持实时处理速度。经过在 Cityscapes-3D 数据集上的严格优化和深入剖析研究，我们的网络始终优于各种基准模型。

Mar, 2024

自动驾驶的语言提示

提出了第一个针对 3D、多视角和多帧空间中驾驶场景的以物体为中心的语言提示集 NuPrompt，并构建了包括 35,367 个语言描述的新的基准数据集。基于该数据集，提出了一种以语言提示为基础的驾驶任务，使用语言提示来预测描述物体在不同视角和帧中的轨迹，并提供了一个简单的基于 Transformer 的端到端基准模型 PromptTrack，实验结果表明 PromptTrack 在 NuPrompt 上取得了令人印象深刻的性能。希望这项工作能为自动驾驶社区提供更多的新见解。数据集和代码将在此 https URL 公开。

Sep, 2023

自动驾驶再思考：多任务知识提升泛化及事故解释能力

本文提出了一个基于分析易任务知识对困难任务进行指导以增强驾驶模型泛化力和事故解释能力的新型驾驶模型，通过多任务感知相关基础知识和驾驶知识的逐步训练，成功地提高了驾驶模型的平均完成率，使其在未训练的城市和天气中大幅优于当前基准方法。

Sep, 2018

基于规划的自动驾驶

提出一种新的自动驾驶系统框架 UniAD，其将任务的优先级与任务之间的交互结合，以整合现有方法中尚未合并的任务，实现更高水平的自动驾驶。

Dec, 2022

通过预训练和多任务微调掌握多模态机器人操作

通过引入一个有效的框架，从多任务的专家轨迹中学习使用多模式提示进行机器人操作，我们在 VIMA-BENCH 上评估了方法的功效，并建立了一个新的最先进水平（成功率提高了 10%）。此外，我们还展示了我们的模型具有显著的情境学习能力。

Oct, 2023

FULLER: 统一的多模态多任务三维感知通过多级梯度校准

多模态融合与多任务学习在三维自动驾驶场景中变得流行，然而，将现有框架扩展到多模态多任务学习领域仍然是无效的甚至有害的，由于恶名昭彰的模态偏差和任务冲突。本研究提出了一个新颖而简单的多层梯度校准学习框架，通过任务和模态之间的优化在任务和模态之间进行优化。实验证明了该方法的有效性。

Jul, 2023

看到他人，发现自己：多任务检测自身失败

本文提出一种基于关注机制的多任务联合失败检测方法，该方法能够评估多个视觉感知任务在图像不同区域的预测准确率和失效率，利用监督式多任务不确定性估计及其对应的预测误差，实现更准确的预测误差估计。

Oct, 2021

针对自主驾驶的多模态感知参数化决策

自动驾驶是一项新兴技术，本论文提出了一种基于深度强化学习的参数化决策框架，AUTO，在感知多模态状态特征基础上设计了图形模型来学习多模态语义特征的状态表示，并通过混合奖励函数考虑安全、交通效率、乘客舒适度等因素，以生成最佳行动。通过广泛实验，证明了 AUTO 在宏观和微观效果上领先于现有技术。

Dec, 2023

基于惩罚的仿生学习，融合跨语义生成传感器融合于自主驾驶

本文提出了一种新颖的基于特征融合的多传感器融合技术，结合仿真学习实现端到端自动驾驶导航。论文的重点在于 Lidar 和 RGB 信息的融合技术，同时提出基于惩罚的仿真学习方法，以加强模型对交通规则的遵守，并统一仿真学习和自动驾驶指标的目标。

Mar, 2023

视频任务百项全能：在自动驾驶中统一图像和视频任务

通过设计统一模型 VTDNet 和挑战集 Video Task Decathlon (VTD)，并且采用 Curriculum training, Pseudo-labeling 和 Fine-tuning (CPF) 训练方案，本研究在自动驾驶中的图像和视频识别任务取得了突破性的进展，显著提高了性能并减少了计算量。

Sep, 2023