CarLLaVA: 基于视觉和语言模型的无需传感器驱动闭环驾驶
DriveVLM 是一种利用 Vision-Language Models(VLMs)进行场景理解和规划的自动驾驶系统,通过一系列思维链模块实现场景描述、分析和层次规划,并提出了 DriveVLM-Dual 作为一种混合系统以解决 VLMs 在空间推理和计算需求上的限制,实现了稳健的空间理解和实时推理速度,通过对 nuScenes 数据集和 SUP-AD 数据集的广泛实验,证明了 DriveVLM 和 DriveVLM-Dual 在复杂和不可预测的驾驶条件下的有效性和增强性能。
Feb, 2024
自主驾驶中的场景理解和推理是复杂而具有挑战性的任务。本文提出了一种新颖的 Vision-Language-Planning(VLP)框架,通过利用自然语言模型来弥合语义理解和自主驾驶之间的鸿沟,从而增强自动驾驶系统的规划性能,提高在挑战性场景中的表现,以及在面对新型城市环境时的强大泛化能力。
Jan, 2024
提出了 CODA-LM,这是一个用于自动驾驶的新兴视觉 - 语言基准测试,通过利用文本而不使用图像输入,使强大的文本 - 语言模型能够评估 LVLM 在自动驾驶场景中的能力,并揭示了它们与人类偏好的更强的一致性。实验证明,即使是像 GPT-4V 这样的商用 LVLM 也无法很好地处理路上的特殊情况,这表明我们离强大的 LVLM 驱动的智能驾驶代理系统还有很长的路要走,希望 CODA-LM 能够成为推动未来发展的催化剂。
Apr, 2024
该研究论文评估了最新的先进视觉语言模型(VLM)在自动驾驶场景中的应用,发现该模型在场景理解和因果推理方面表现出优越性能,但在方向辨别、交通信号识别、视觉对接以及空间推理任务方面仍存在挑战。
Nov, 2023
EM-VLM4AD 是一种轻量级、高效的多帧视觉语言模型,用于自动驾驶中的视觉问答任务,相较于先前方法,它在内存和浮点运算资源的使用上减少了至少 10 倍,并在 DriveLM 数据集上获得了更高的 BLEU-4、METEOR、CIDEr 和 ROGUE 分数。
Mar, 2024
我们研究了如何将在网络规模的数据上训练的视觉 - 语言模型(VLMs)整合到端到端驾驶系统中,以增强泛化能力,并实现与人类用户的互动。通过在感知、预测和规划等方面建立图结构推理的问答对模型,我们提出了 Graph VQA 任务,以模拟人类的推理过程。我们构建了基于 nuScenes 和 CARLA 的数据集(DriveLM-Data),并提出了一个基于 VLM 的基准方法(DriveLM-Agent),用于同时进行 Graph VQA 和端到端驾驶。实验证明 Graph VQA 为驾驶场景的推理提供了简单和有原则的框架,DriveLM-Data 为这一任务提供了具有挑战性的基准。我们的 DriveLM-Agent 基线在与最先进的专用驾驶架构相比的端到端自动驾驶方面表现出了竞争力。值得注意的是,当其在未见过的对象或传感器配置上进行零样本评估时,其效果更为显著。希望这项工作能为如何将 VLMs 应用于自动驾驶提供新的启示。为了促进未来的研究,我们将所有的代码、数据和模型公开提供。
Dec, 2023
通过使用互联网规模的视觉 - 语言数据和多样化的机器人演示进行预训练的大型模型,可以改变我们教授机器人新技能的方式:相对于从零开始训练新行为,我们可以对这种视觉 - 语言 - 动作(VLA)模型进行微调,以获得稳健、具有广泛适用性的视觉 - 动作策略。我们介绍了 OpenVLA,这是一个 7B 参数的开源 VLA,它在多样化的 970k 真实世界机器人演示数据集上进行了训练。OpenVLA 基于 Llama 2 语言模型和可视编码器,融合了 DINOv2 和 SigLIP 的预训练特征。通过增加数据多样性和新的模型组件,OpenVLA 在广义操纵方面表现出色,在 29 个任务和多个机器人实体上的绝对任务成功率上优于 RT-2-X(55B)等闭源模型 16.5%,并且参数数量仅为其七分之一。我们进一步展示了 OpenVLA 对于新环境的有效微调,在涉及多个对象和强大语言基础能力的多任务环境中,具有特别强大的泛化能力,且优于 Diffusion Policy 等基于从头开始的模仿学习方法 20.4%。此外,我们还探索了计算效率;作为额外贡献,我们表明 OpenVLA 可以通过现代低秩适应方法在消费级 GPU 上进行微调,并通过量化方式进行有效服务,而不会影响下游的成功率。最后,我们发布了模型检查点、微调笔记本以及基于 PyTorch 的代码库,支持在 Open X-Embodiment 数据集上规模化训练 VLA。
Jun, 2024
城市场景交通安全描述与分析在保险检查和事故预防等应用中起着关键作用。本文介绍了 CityLLaVA,一种专门用于城市场景的视觉语言模型的新的微调框架,通过采用边界框进行最佳视觉数据预处理,包括视频最佳视角选择和在训练和测试阶段进行视觉提示工程;构建简明的问答序列和设计文本提示以提高指令理解;通过块扩展高效微调大型视觉语言模型,并通过一种独特的顺序提问预测增强方法提高预测准确性。在实验中,我们的方法达到了 33.4308 的基准分数,在排行榜上占据了领先位置。
May, 2024
本文介绍了在 CARLA 模拟器中,基于 CaRINA2 架构设计了一个自主车辆导航系统,能够有效避免交通违规,具备障碍物检测、交通标志检测、风险评估、决策制定和控制等多个关键组件,利用卷积神经网络等技术实现。该系统在首届 CARLA 自主驾驶挑战赛中成绩斐然,取得了 3 个赛道的胜利。
Oct, 2020
基于大型语言模型和视觉基础模型的多模态人工智能系统在实时感知、决策和工具控制方面与人类相似,并在自动驾驶和地图系统中引起广泛关注。本文对多模态大型语言模型驱动系统的关键挑战、机会和未来工作进行了系统研究,概述了多模态大型语言模型的背景、发展以及自动驾驶的历史,并总结了在自动驾驶中使用多模态大型语言模型的工具、数据集和基准,同时介绍了第一届大型语言和视觉模型自动驾驶研讨会的相关工作,提出了使用多模态大型语言模型在自动驾驶系统中需要解决的若干重要问题,并呼吁学术界和工业界共同促进该领域的发展。
Nov, 2023