NuScenes-QA: 一个针对自主驾驶场景的多模态视觉问答基准测试

May, 2023

NuScenes-QA: 一个针对自主驾驶场景的多模态视觉问答基准测试

NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario

Tianwen Qian, Jingjing Chen, Linhai Zhuo, Yang Jiao, Yu-Gang Jiang

TL;DR我们介绍了一个新颖的视觉问答（VQA）任务，旨在回答基于街景线索的自然语言问题，在自动驾驶情境下。我们提出了 NuScenes-QA，这是第一个针对自动驾驶场景下的 VQA 任务的基准，包括 34K 个视觉场景和 460K 个问题 - 答案对。我们利用现有的 3D 检测注释生成场景图，并手动设计问题模板。这个基准是一个平衡的大规模基准，具有多种问题格式。

Abstract

We introduce a novel visual question answering (VQA) task in the context of autonomous driving, aiming to answer natural language questions based on street-view clues. Compared to traditional VQA tasks, VQA in

visual question answering autonomous driving multi-modal data vqa benchmark scene graphs

发现论文，激发创造

NuScenes-MQA：使用标记注释集成评估自动驾驶数据集的标题和问答

在自动驾驶中，视觉问答（VQA）是最重要的任务之一，要求准确的识别和复杂情况评估。本研究介绍了一种新型数据集标注技术 Markup-QA，其中问题回答被包含在标记中，该方法有助于同时评估模型在语句生成和 VQA 方面的能力。此外，通过使用这种标注方法，我们设计了 NuScenes-MQA 数据集，该数据集侧重于自动驾驶任务的描述能力和准确的问答，可为视觉语言模型的开发提供支持。

Dec, 2023

nuScenes：自动驾驶的多模态数据集

本文介绍了 nuTonomy 场景数据集，其中包含了自动驾驶车辆所有的传感器：6 个相机，5 个雷达和 1 个激光雷达，每个场景长达 20 秒，并标注了 23 个类别和 8 个属性的三维边界框。同时，定义了新的 3D 检测和跟踪指标，并提供了激光雷达和基于图像的检测和跟踪的基线。

Mar, 2019

乌尔都语自然场景文本检测、识别和视觉问答的数据集和基准

通过提供 1000 多幅自然场景图像，该研究提出了一个新的多任务乌尔都语场景文本数据集，用于文本检测、识别和视觉问答任务，并解决了之前数据集在面对任意形状文本时的限制。该数据集通过引入额外的标注点，方便了对能够处理多样文本布局、复杂形状和非标准方向的方法进行开发和评估，帮助进一步推动乌尔都语场景文本理解方法的发展。

May, 2024

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

LingoQA：自动驾驶视频问答

自动驾驶领域长期以来面临着公众接受度低的问题，本研究通过视频问答的自然语言处理为决策过程提供了可解释性，同时引入了 LingoQA 基准测试集以填补评估视频问答模型性能的空白，并通过与人工评估的 0.95 斯皮尔曼相关系数进行了验证，其次还提出了一个包含 419,000 个样本的中央伦敦视频问答数据集，建立了基线视觉 - 语言模型，并进行了大量的消融分析以评估其性能。

Dec, 2023

场景文本视觉问答

本文介绍了一个新数据集，即 ST-VQA，旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务，需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文本识别模块的缺陷，同时提出一系列基线方法。

May, 2019

在动态音视频场景中学习回答问题

本文研究了 Audio-Visual Question Answering（AVQA）任务，提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题，结果表明我们的方法优于现有的 A-V 和 AVQA 方法。

Mar, 2022

利用视觉问答解释自主驾驶行为

通过视觉问答 (VQA) 框架解释自动驾驶的决策，以提高驾驶安全性。

Jul, 2023

利用场景图知识推进手术视觉问答

通过使用场景图知识解决目前手术 VQA 系统中的问题条件偏见和融入场景感知推理两个挑战，我们提出了一种基于手术场景图的数据集 SSG-QA 和一种新颖的手术 VQA 模型 SSG-QA-Net，展示了通过将几何场景特征融入 VQA 模型设计中能够显著提高结果。

Dec, 2023

理解场景图在视觉问答中的作用

本文通过实验探讨使用场景图（Scene Graphs）解决视觉问答（Visual Question Answering）任务。作者采用图像 + 问题架构研究场景图的各种生成技术，建议一套训练课程以利用人类注释和自动生成的场景图，并通过构建后期融合结构来学习多个图像表示。这份研究提供了使用场景图解决 VQA 的多方面研究，是其类型中的首次探索。

Jan, 2021