利用视觉问答解释自主驾驶行为
自动驾驶领域长期以来面临着公众接受度低的问题,本研究通过视频问答的自然语言处理为决策过程提供了可解释性,同时引入了 LingoQA 基准测试集以填补评估视频问答模型性能的空白,并通过与人工评估的 0.95 斯皮尔曼相关系数进行了验证,其次还提出了一个包含 419,000 个样本的中央伦敦视频问答数据集,建立了基线视觉 - 语言模型,并进行了大量的消融分析以评估其性能。
Dec, 2023
我们研究了如何将在网络规模的数据上训练的视觉 - 语言模型(VLMs)整合到端到端驾驶系统中,以增强泛化能力,并实现与人类用户的互动。通过在感知、预测和规划等方面建立图结构推理的问答对模型,我们提出了 Graph VQA 任务,以模拟人类的推理过程。我们构建了基于 nuScenes 和 CARLA 的数据集(DriveLM-Data),并提出了一个基于 VLM 的基准方法(DriveLM-Agent),用于同时进行 Graph VQA 和端到端驾驶。实验证明 Graph VQA 为驾驶场景的推理提供了简单和有原则的框架,DriveLM-Data 为这一任务提供了具有挑战性的基准。我们的 DriveLM-Agent 基线在与最先进的专用驾驶架构相比的端到端自动驾驶方面表现出了竞争力。值得注意的是,当其在未见过的对象或传感器配置上进行零样本评估时,其效果更为显著。希望这项工作能为如何将 VLMs 应用于自动驾驶提供新的启示。为了促进未来的研究,我们将所有的代码、数据和模型公开提供。
Dec, 2023
这项调查综述了针对基于行为克隆训练的视觉自驾系统的可解释性方法。该综述从计算机视觉、深度学习、自动驾驶和可解释人工智能等多个研究领域收集贡献,并讨论了自驾车的解释性定义、动机、方法以及未来挑战。
Jan, 2021
本文提出了一种新颖的方法,开发了一个高性能的 VQA 系统,能够通过集成的文本和视觉解释阐述其答案,并捕捉到深度神经网络推理的重要方面,从而比竞争方法具有更好的自动化和人类评估指标。
Sep, 2018
本研究探讨了可解释的自动驾驶车辆中使用视觉解释的方法,使乘客、保险公司、执法机构和开发人员能够理解神经网络控制模型的行为,该模型采用了视觉关注模型进行训练,并应用因果过滤步骤来确定哪些输入区域实际上影响了输出。该方法在三个数据集上进行了有效性研究,证明了其在自动驾驶行为和人类驾驶行为中的应用价值。
Mar, 2017
自适应驾驶决策中,深度强化学习模型的黑盒特性限制了实际应用,因此本研究工作关注一种基于注意力机制的可解释深度强化学习框架,并使用连续近端策略优化算法作为基准模型,在开源自适应驾驶仿真环境中加入了多头注意力机制。通过分析技术讨论模型的可解释性和因果关系,发现模型的第一个头部编码了邻近车辆的位置,而第二个头部则专注于领导车辆。此外,自车的动作在时空上受到目标车道上车辆的因果依赖。这些发现可帮助从业人员解读深度强化学习算法的结果。
Mar, 2024
该研究通过比较人类和 VQA 模型在回答与驾驶相关的问题时的注意模式,揭示了观察对象方面的差异。我们提出了一种整合过滤器来优化模型的注意机制的方法,优先考虑相关对象并提高准确性。通过将 LXMERT 模型应用于案例研究,我们比较了预训练模型和整合过滤器模型以及来自 NuImages 数据集的人类答案的注意模式,从而深入了解特征优先级的问题。我们使用一个主观评分框架评估了这些模型,结果显示特征编码器过滤器的整合提高了 VQA 模型的性能,优化了其注意机制。
Jun, 2024
这篇简短研究在回答与驾驶场景相关的问题的背景下,对 ViLBERT、ViLT 和 LXMERT 这三种流行的视觉问答(VQA)模型进行初步分析。通过比较计算机视觉专家提供的参考答案与模型输出答案的相似性来评估这些模型的性能。分析了多模态架构中的变换器利用情况来选择合适的模型,结果表明,结合跨模态注意力和后期融合技术的模型在驾驶场景中生成改进答案的潜力很大。这项初步分析为即将进行的涉及九个 VQA 模型的全面比较研究奠定了基础,同时为进一步研究 VQA 模型在自动驾驶场景中的有效性提供了背景。附加材料可在此网址获取:https://example.com/。
Jul, 2023