Dec, 2023

GPT-4 增强型自动驾驶多模态基础:借助大型语言模型的跨模态注意力

TL;DR在自动驾驶车辆领域中,准确识别指挥者意图并在视觉环境中执行语言指令是一个巨大的挑战。本文介绍了一个复杂的编码器 - 解码器框架,用于解决自动驾驶车辆中的视觉 grounding 问题。我们的 Context-Aware Visual Grounding (CAVG) 模型是一个先进的系统,将文本、图像、上下文和跨模态的五个核心编码器集成到一个多模态解码器中。该模型通过实施多头跨模态注意力机制和区域特定动态 (RSD) 层,能够高效处理和解释一系列跨模态输入,从而全面理解口头指令和相应的视觉场景之间的相关性。在真实世界基准数据集 Talk2Car 上的实证评估表明,CAVG 在预测准确性和操作效率方面树立了新的标准。值得注意的是,即使在完整数据集的 50% 到 75% 的有限训练数据的情况下,该模型表现出色。这一特点凸显了它在实际自动驾驶应用中的效果和潜力。此外,CAVG 在挑战性场景中展现出了卓越的强健性和适应性,包括长文本命令解释、低光条件、模糊的命令上下文、恶劣天气条件和人口密集的城市环境。该模型的代码可在我们的 Github 上找到。