在道路上阅读：文本视频问答

Jul, 2023

Reading Between the Lanes: Text VideoQA on the Road

George Tom, Minesh Mathew, Sergi Garcia, Dimosthenis Karatzas, C.V. Jawahar

TL;DR在驾驶员辅助环境下，通过提取和利用视频流中的视觉和文本线索以及时间推理，研究了场景文本识别和视频问答，以提升驾驶安全和多模态问题回答效果。

Abstract

Text and signs around roads provide crucial information for drivers, vital for safe navigation and situational awareness. scene text recognition in motion is a challenging problem, while textual cues typically appear for a short time span, and early detection at a distance is necessary

scene text recognition video question answering driver assistance roadtextvqa dataset in-vehicle support systems

发现论文，激发创造

通过文本理解视频场景：来自基于文本的视频问答的洞察

研究人员广泛研究了视觉和语言领域，发现理解场景需要理解视觉和文字内容，特别是在视频中理解文字对于回答问题非常重要。本文集中探索了两个最近推出的数据集，NewsVideoQA 和 M4-ViteVQA，这两个数据集旨在通过文字内容进行视频问答。NewsVideoQA 数据集包含与新闻视频中的文本相关的问答对，而 M4-ViteVQA 包含来自不同类别（如视频博客、旅游和购物）的问答对。我们在各个层面上分析了这些数据集的构建情况，探讨了回答问题所需的视觉理解和多帧理解的程度。此外，本研究还进行了与仅文本模型 BERT-QA 的实验，结果显示在这两个数据集上，BERT-QA 的表现与原始方法相当，指示了这些数据集构建上的不足之处。此外，我们还探讨了域适应方面的问题，通过在 M4-ViteVQA 上进行训练并在 NewsVideoQA 上进行评估以及反之，从而探讨了跨领域训练的挑战和潜在好处。

Sep, 2023

基于交通领域的自动字幕视频问答

论文提出一种名为 TRIVIA 的新方法，将交通领域的知识融入到大型视频语言模型中，通过弱监督技术实现交通领域的视频问题回答，与传统设置相比，提高了代表性视频语言模型的准确率 6.5 个百分点（19.88%）。

Jul, 2023

LingoQA：自动驾驶视频问答

自动驾驶领域长期以来面临着公众接受度低的问题，本研究通过视频问答的自然语言处理为决策过程提供了可解释性，同时引入了 LingoQA 基准测试集以填补评估视频问答模型性能的空白，并通过与人工评估的 0.95 斯皮尔曼相关系数进行了验证，其次还提出了一个包含 419,000 个样本的中央伦敦视频问答数据集，建立了基线视觉 - 语言模型，并进行了大量的消融分析以评估其性能。

Dec, 2023

NuScenes-MQA：使用标记注释集成评估自动驾驶数据集的标题和问答

在自动驾驶中，视觉问答（VQA）是最重要的任务之一，要求准确的识别和复杂情况评估。本研究介绍了一种新型数据集标注技术 Markup-QA，其中问题回答被包含在标记中，该方法有助于同时评估模型在语句生成和 VQA 方面的能力。此外，通过使用这种标注方法，我们设计了 NuScenes-MQA 数据集，该数据集侧重于自动驾驶任务的描述能力和准确的问答，可为视觉语言模型的开发提供支持。

Dec, 2023

场景文本视觉问答

本文介绍了一个新数据集，即 ST-VQA，旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务，需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文本识别模块的缺陷，同时提出一系列基线方法。

May, 2019

面向能够阅读的 VQA 模型

我们研究了盲人用户在看不到图片的情况下经常关注的图像内容，即图片中的文本，并介绍了一种名为 LoRRA 的新模型用于解决这个问题，同时提出了一个名为 TextVQA 的数据集来评估和改进模型表现。

Apr, 2019

NuScenes-QA: 一个针对自主驾驶场景的多模态视觉问答基准测试

我们介绍了一个新颖的视觉问答（VQA）任务，旨在回答基于街景线索的自然语言问题，在自动驾驶情境下。我们提出了 NuScenes-QA，这是第一个针对自动驾驶场景下的 VQA 任务的基准，包括 34K 个视觉场景和 460K 个问题 - 答案对。我们利用现有的 3D 检测注释生成场景图，并手动设计问题模板。这个基准是一个平衡的大规模基准，具有多种问题格式。

May, 2023

TVQA: 本地化、组合式视频问答

本文提出 TVQA，一个基于 6 个流行电视节目的大规模视频问答数据集，共计包含 152,545 对 QA 对，分布在 21,793 个片段中，共涵盖了 460 小时的视频。该数据集中的问题具有组合性质，需要系统联合定位剪辑中的相关片段，理解基于字幕的对话，并识别相关的视觉概念。作者提供了该数据集的分析以及几个基线模型和一个多流端到端可训练的神经网络框架。

Sep, 2018

面向文本的双路由网络用于视觉问答

提出了一种名为 TDR 的基于文本感知的双路由神经网络，在视觉问题回答方面取得了优异表现，特别是在与数字相关的问题上。

Nov, 2022

ICDAR 2019 场景文本视觉问答竞赛

本文介绍了 ICDAR 2019 场景文本视觉问答比赛 (ST-VQA) 的最终结果和新数据集，包括 23038 张图像和 31791 个文本实例答案，涵盖广泛的情景。该竞赛共有 3 个递增的任务，需要理解场景中的文本并回答问题。提出了一种新的评估度量标准，旨在评估文本识别和图像理解两种关键能力。结果分析提供了 VQA 系统当前的能力洞见。此数据集标志着使用场景文本实现全面图像理解的更强大、更通用的模型的重要里程碑。

Jun, 2019