自动驾驶预训练视觉问答模型的性能分析

Jul, 2023

自动驾驶预训练视觉问答模型的性能分析

Towards a performance analysis on pre-trained Visual Question Answering models for autonomous driving

Kaavya Rekanar, Ciarán Eising, Ganesh Sistu, Martin Hayes

TL;DR这篇简短研究在回答与驾驶场景相关的问题的背景下，对 ViLBERT、ViLT 和 LXMERT 这三种流行的视觉问答（VQA）模型进行初步分析。通过比较计算机视觉专家提供的参考答案与模型输出答案的相似性来评估这些模型的性能。分析了多模态架构中的变换器利用情况来选择合适的模型，结果表明，结合跨模态注意力和后期融合技术的模型在驾驶场景中生成改进答案的潜力很大。这项初步分析为即将进行的涉及九个 VQA 模型的全面比较研究奠定了基础，同时为进一步研究 VQA 模型在自动驾驶场景中的有效性提供了背景。附加材料可在此网址获取：https://example.com/。

Abstract

This short paper presents a preliminary analysis of three popular Visual Question Answering (VQA) models, namely ViLBERT, ViLT, and LXMERT, in the context of answering questions relating to driving scenarios. The performance of these models is evaluated by comparing the similarity of r

visual question answering vqa models driving scenarios transformer utilization cross-modal attention

发现论文，激发创造

优化驾驶视觉问答模型：弥合人类与机器注意力模式的差距

该研究通过比较人类和 VQA 模型在回答与驾驶相关的问题时的注意模式，揭示了观察对象方面的差异。我们提出了一种整合过滤器来优化模型的注意机制的方法，优先考虑相关对象并提高准确性。通过将 LXMERT 模型应用于案例研究，我们比较了预训练模型和整合过滤器模型以及来自 NuImages 数据集的人类答案的注意模式，从而深入了解特征优先级的问题。我们使用一个主观评分框架评估了这些模型，结果显示特征编码器过滤器的整合提高了 VQA 模型的性能，优化了其注意机制。

Jun, 2024

DriveLM: 基于图像问答的驾驶

我们研究了如何将在网络规模的数据上训练的视觉 - 语言模型（VLMs）整合到端到端驾驶系统中，以增强泛化能力，并实现与人类用户的互动。通过在感知、预测和规划等方面建立图结构推理的问答对模型，我们提出了 Graph VQA 任务，以模拟人类的推理过程。我们构建了基于 nuScenes 和 CARLA 的数据集（DriveLM-Data），并提出了一个基于 VLM 的基准方法（DriveLM-Agent），用于同时进行 Graph VQA 和端到端驾驶。实验证明 Graph VQA 为驾驶场景的推理提供了简单和有原则的框架，DriveLM-Data 为这一任务提供了具有挑战性的基准。我们的 DriveLM-Agent 基线在与最先进的专用驾驶架构相比的端到端自动驾驶方面表现出了竞争力。值得注意的是，当其在未见过的对象或传感器配置上进行零样本评估时，其效果更为显著。希望这项工作能为如何将 VLMs 应用于自动驾驶提供新的启示。为了促进未来的研究，我们将所有的代码、数据和模型公开提供。

Dec, 2023

分析视觉问答模型的行为

本文研究了基于深度学习模型的视觉问答模型，发现现有模型的准确率在 60-70％之间，且本文提出系统分析这些模型行为的方法，发现这些模型存在缺点，包括不够全面、容易得出错误答案和不易更正的问题。

Jun, 2016

视觉问答技巧：2017 年挑战赛收获

本文介绍了一个用于视觉问答（VQA）的最先进模型，这个模型在 2017 年的 VQA 挑战中获得了第一名。通过对超过 3,000 个 GPU 小时的架构和超参数的深入探索，我们发现了许多用于提高性能的 Tips and Tricks。我们详细地分析了它们的影响以协助其他人进行适当的选择。

Aug, 2017

自动驾驶问答的多帧、轻量级和高效视觉语言模型

EM-VLM4AD 是一种轻量级、高效的多帧视觉语言模型，用于自动驾驶中的视觉问答任务，相较于先前方法，它在内存和浮点运算资源的使用上减少了至少 10 倍，并在 DriveLM 数据集上获得了更高的 BLEU-4、METEOR、CIDEr 和 ROGUE 分数。

Mar, 2024

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

走向透明化的 AI 系统：解释视觉问答模型

该论文探讨使用引导反向传播和遮挡等可视化技术，解释视觉问答（VQA）模型的工作过程，并发现即使没有显式注意机制，VQA 模型有时也会隐含地关注图像中的相关区域和问题中的适当单词。

Aug, 2016

视觉问答的潜变量模型

本文提出使用潜在变量模型来解决视觉问答问题，将额外信息（如标题和答案类别）作为潜在变量进行训练，提高了问题回答性能。实验表明该方法在 VQA v2.0 基准测试数据集上优于其他方法。

Jan, 2021

利用视觉问答解释自主驾驶行为

通过视觉问答 (VQA) 框架解释自动驾驶的决策，以提高驾驶安全性。

Jul, 2023

幕后揭秘：揭示预训练视觉语言模型的秘密

该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言（V+L）方面的应用，通过评估和探索内部机制，提供了关于多模式预训练及其注意力头的启示和指导。

May, 2020