Feb, 2024

DriveVLM:自动驾驶与大型视觉语言模型的融合

TL;DRDriveVLM 是一种利用 Vision-Language Models(VLMs)进行场景理解和规划的自动驾驶系统,通过一系列思维链模块实现场景描述、分析和层次规划,并提出了 DriveVLM-Dual 作为一种混合系统以解决 VLMs 在空间推理和计算需求上的限制,实现了稳健的空间理解和实时推理速度,通过对 nuScenes 数据集和 SUP-AD 数据集的广泛实验,证明了 DriveVLM 和 DriveVLM-Dual 在复杂和不可预测的驾驶条件下的有效性和增强性能。