Feb, 2024
DriveVLM:自动驾驶与大型视觉语言模型的融合
DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models
Xiaoyu Tian, Junru Gu, Bailin Li, Yicheng Liu, Chenxu Hu...
TL;DRDriveVLM 是一种利用 Vision-Language Models(VLMs)进行场景理解和规划的自动驾驶系统,通过一系列思维链模块实现场景描述、分析和层次规划,并提出了 DriveVLM-Dual 作为一种混合系统以解决 VLMs 在空间推理和计算需求上的限制,实现了稳健的空间理解和实时推理速度,通过对 nuScenes 数据集和 SUP-AD 数据集的广泛实验,证明了 DriveVLM 和 DriveVLM-Dual 在复杂和不可预测的驾驶条件下的有效性和增强性能。