自动驾驶的语言提示

Sep, 2023

Language Prompt for Autonomous Driving

Dongming Wu, Wencheng Han, Tiancai Wang, Yingfei Liu, Xiangyu Zhang...

TL;DR提出了第一个针对 3D、多视角和多帧空间中驾驶场景的以物体为中心的语言提示集 NuPrompt，并构建了包括 35,367 个语言描述的新的基准数据集。基于该数据集，提出了一种以语言提示为基础的驾驶任务，使用语言提示来预测描述物体在不同视角和帧中的轨迹，并提供了一个简单的基于 Transformer 的端到端基准模型 PromptTrack，实验结果表明 PromptTrack 在 NuPrompt 上取得了令人印象深刻的性能。希望这项工作能为自动驾驶社区提供更多的新见解。数据集和代码将在此 https URL 公开。

Abstract

A new trend in the computer vision community is to capture objects of interest following flexible human command represented by a natural language prompt. However, the progress of using language prompts in driving scenarios is stuck in a bottleneck due to the scarcity of paired

object-centric language prompt driving scenarios prompt-instance data nuprompt prompttrack

发现论文，激发创造

自动驾驶统一感知中基于视觉样本的任务提示

本文通过对四项常见自动驾驶感知任务（物体检测，语义分割，可行驶区域分割和车道检测）的大规模驾驶数据集的广泛分析，提出了一种有效的多任务学习框架，即 VE-Prompt，该框架通过特定于任务的提示引入视觉示例来指导模型向学习高质量的任务特定表示方向发展，并在视觉上提高了目标类别的精度和性能优越于单任务模型。

Mar, 2023

基于大型语言模型的交互式和可视化提示工程，用于即席任务适应

本文介绍了一种使用神经语言模型的 zero-shot prompting 方法，在不需要监督训练的情况下解决 ad-hoc 语言任务。我们提出了 PromptIDE 工具，该工具可以帮助用户实验不同的提示词选择，以达到任务指标的优化和数据量的扩展。该工具已在多个现实世界的案例中得到了应用。

Aug, 2022

视觉背景提示

本文介绍了一种通用的视觉上下文提示框架，以支持涂鸦、方框和点等各种提示类型，并进一步改进以支持任意数量的上下文。通过在 COCO 和 SA-1B 上进行联合训练，我们的模型在 COCO 上达到 57.7 PQ，在 ADE20K 上达到 23.2 PQ。

Nov, 2023

神经引导：优化文本到图像生成的自适应框架

通过使用预先训练的语言模型生成与人类专家设计相似的提示语，NeuroPrompts 自适应框架可以改善文本到图像模型生成结果的质量，并提供用户对风格特征的控制。研究通过创建一个与 Stable Diffusion 相关的互动应用程序，展示了该框架的实用性。此外，通过利用大型数据集的人工设计提示，在文本到图像生成过程中，自动产生的改进提示可获得更高质量的图像。

Nov, 2023

视觉语言理解的情境提示学习

本文提出一种叫做上下文提示学习的框架，用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示，通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。

Jul, 2023

Talk2Car: 控制自动驾驶汽车

本文提出了一个包含自然语言命令的自主驾驶汽车对象引用数据集，并与相关数据集进行了比较以及使用强大的最新模型进行了表现分析，该对象引用任务对于模型仍需要自然语言处理、计算机视觉以及这些领域的交叉研究进行进一步的研究。

Sep, 2019

基于提示的上下文和领域感知预训练：视觉与语言导航

提出了一种基于提示的上下文和领域感知的预训练框架（PANDA），用于解决预训练视觉语言模型在视觉和语言导航任务中的领域差异和交叉模态对齐的问题，并通过对比学习进一步优化预训练模型。实验结果表明，PANDA 在 R2R 和 REVERIE 任务上优于之前的最先进方法。

Sep, 2023

使用视觉语言模型学习开放词汇物体检测提示

本文提出一种名为 DetPro 的新方法，以学习基于预先训练的视觉 - 语言模型的连续提示表示，用于开放词汇物体检测。与以前的分类为导向的方法不同，DetPro 具有两个亮点：1）背景解释方案，包括图像背景中的提议进入提示训练；2）上下文分级方案，用于分离定制提示训练中的图像前景中的建议。通过将 DetPro 与状态 - of-the-art 的开放世界对象检测器 ViLD 组装在一起，并在 LVIS 以及 Pascal VOC，COCO，Objects365 数据集上进行实验，实验结果表明，我们的 DetPro 在所有设置中都优于基线 ViLD，例如在 LVIS 的新颖类上提高了 3.4 APbox 和 3.0 APmask。

Mar, 2022

基于先验训练的开放集检测中视觉提示的探索

通过学习新类别知识并利用统计学构建模块，以及任务特定相似性字典的设计，我们提出了一种新的视觉提示方法，可以将预训练的检测模型推广到新类别，并在组合推理中表现出更好的性能。

Dec, 2023

自然语言指令的条件驱动

该研究介绍了一种基于语言的驾驶智能体，它使用递归层和门控注意力实现分层策略，通过条件模仿学习培训策略，并能够成功地解释语言指令并安全地跟随它们，甚至在以前未见过的环境中进行泛化。

Oct, 2019