在道路上阅读:文本视频问答
研究人员广泛研究了视觉和语言领域,发现理解场景需要理解视觉和文字内容,特别是在视频中理解文字对于回答问题非常重要。本文集中探索了两个最近推出的数据集,NewsVideoQA 和 M4-ViteVQA,这两个数据集旨在通过文字内容进行视频问答。NewsVideoQA 数据集包含与新闻视频中的文本相关的问答对,而 M4-ViteVQA 包含来自不同类别(如视频博客、旅游和购物)的问答对。我们在各个层面上分析了这些数据集的构建情况,探讨了回答问题所需的视觉理解和多帧理解的程度。此外,本研究还进行了与仅文本模型 BERT-QA 的实验,结果显示在这两个数据集上,BERT-QA 的表现与原始方法相当,指示了这些数据集构建上的不足之处。此外,我们还探讨了域适应方面的问题,通过在 M4-ViteVQA 上进行训练并在 NewsVideoQA 上进行评估以及反之,从而探讨了跨领域训练的挑战和潜在好处。
Sep, 2023
论文提出一种名为 TRIVIA 的新方法,将交通领域的知识融入到大型视频语言模型中,通过弱监督技术实现交通领域的视频问题回答,与传统设置相比,提高了代表性视频语言模型的准确率 6.5 个百分点(19.88%)。
Jul, 2023
自动驾驶领域长期以来面临着公众接受度低的问题,本研究通过视频问答的自然语言处理为决策过程提供了可解释性,同时引入了 LingoQA 基准测试集以填补评估视频问答模型性能的空白,并通过与人工评估的 0.95 斯皮尔曼相关系数进行了验证,其次还提出了一个包含 419,000 个样本的中央伦敦视频问答数据集,建立了基线视觉 - 语言模型,并进行了大量的消融分析以评估其性能。
Dec, 2023
在自动驾驶中,视觉问答(VQA)是最重要的任务之一,要求准确的识别和复杂情况评估。本研究介绍了一种新型数据集标注技术 Markup-QA,其中问题回答被包含在标记中,该方法有助于同时评估模型在语句生成和 VQA 方面的能力。此外,通过使用这种标注方法,我们设计了 NuScenes-MQA 数据集,该数据集侧重于自动驾驶任务的描述能力和准确的问答,可为视觉语言模型的开发提供支持。
Dec, 2023
本文介绍了一个新数据集,即 ST-VQA,旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务,需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文本识别模块的缺陷,同时提出一系列基线方法。
May, 2019
我们研究了盲人用户在看不到图片的情况下经常关注的图像内容,即图片中的文本,并介绍了一种名为 LoRRA 的新模型用于解决这个问题,同时提出了一个名为 TextVQA 的数据集来评估和改进模型表现。
Apr, 2019
我们介绍了一个新颖的视觉问答(VQA)任务,旨在回答基于街景线索的自然语言问题,在自动驾驶情境下。我们提出了 NuScenes-QA,这是第一个针对自动驾驶场景下的 VQA 任务的基准,包括 34K 个视觉场景和 460K 个问题 - 答案对。我们利用现有的 3D 检测注释生成场景图,并手动设计问题模板。这个基准是一个平衡的大规模基准,具有多种问题格式。
May, 2023
本文提出 TVQA,一个基于 6 个流行电视节目的大规模视频问答数据集,共计包含 152,545 对 QA 对,分布在 21,793 个片段中,共涵盖了 460 小时的视频。该数据集中的问题具有组合性质,需要系统联合定位剪辑中的相关片段,理解基于字幕的对话,并识别相关的视觉概念。作者提供了该数据集的分析以及几个基线模型和一个多流端到端可训练的神经网络框架。
Sep, 2018
本文介绍了 ICDAR 2019 场景文本视觉问答比赛 (ST-VQA) 的最终结果和新数据集,包括 23038 张图像和 31791 个文本实例答案,涵盖广泛的情景。该竞赛共有 3 个递增的任务,需要理解场景中的文本并回答问题。提出了一种新的评估度量标准,旨在评估文本识别和图像理解两种关键能力。结果分析提供了 VQA 系统当前的能力洞见。此数据集标志着使用场景文本实现全面图像理解的更强大、更通用的模型的重要里程碑。
Jun, 2019