基于交通领域的自动字幕视频问答

Jul, 2023

基于交通领域的自动字幕视频问答

Traffic-Domain Video Question Answering with Automatic Captioning

Ehsan Qasemi, Jonathan M. Francis, Alessandro Oltramari

TL;DR论文提出一种名为 TRIVIA 的新方法，将交通领域的知识融入到大型视频语言模型中，通过弱监督技术实现交通领域的视频问题回答，与传统设置相比，提高了代表性视频语言模型的准确率 6.5 个百分点（19.88%）。

Abstract

video question answering (VidQA) exhibits remarkable potential in facilitating advanced machine reasoning capabilities within the domains of intelligent traffic monitoring and →

video question answering intelligent traffic monitoring intelligent transportation systems traffic-domain video question answering weak-supervision technique

发现论文，激发创造

SUTD-TrafficQA：交通事件视频推理的问答基准和高效网络

本文提出了一种基于视频问答的交通事件认知数据集，用于基准测试因果推理和事件理解模型在复杂交通场景中的认知能力，并提出了一个针对各种交通场景的挑战性推理任务来评估不同类型的复杂但实用的交通事件的推理能力。此外，提出了一种新的高效视频推理模型，命名为 Eclipse，通过动态推理实现计算效率和可靠性的平衡。实验证明，我们的方法在显著降低计算成本的同时，实现了卓越的性能。

Mar, 2021

利用背景知识进行交通情境的鲁棒推理

本文讨论交通理解的文本方法，采用三种基于知识的方法进行针对交通情境的零 - shot 问答，在大量语料库和知识图中提取常识知识。作者构建两个文本多项选择问答集来评估交通领域的因果推理和类似于人类驾驶执照测试的领域知识，其中 Unified-QA 是最好的方法之一，而 DPR+Unified-QA 的知识提取方式更为高效。

Dec, 2022

在道路上阅读：文本视频问答

在驾驶员辅助环境下，通过提取和利用视频流中的视觉和文本线索以及时间推理，研究了场景文本识别和视频问答，以提升驾驶安全和多模态问题回答效果。

Jul, 2023

LingoQA：自动驾驶视频问答

自动驾驶领域长期以来面临着公众接受度低的问题，本研究通过视频问答的自然语言处理为决策过程提供了可解释性，同时引入了 LingoQA 基准测试集以填补评估视频问答模型性能的空白，并通过与人工评估的 0.95 斯皮尔曼相关系数进行了验证，其次还提出了一个包含 419,000 个样本的中央伦敦视频问答数据集，建立了基线视觉 - 语言模型，并进行了大量的消融分析以评估其性能。

Dec, 2023

视频问答的近期进展：数据集和方法回顾

本综述探讨了最近新兴的计算机视觉领域中的视频问答任务，重点回顾了一些方法和数据集，并指出此任务以前没有进行过综述。

Jan, 2021

交通理解情境推理研究

通过在交通领域中设计了三个新的基于文本的任务，我们采用了四种知识增强方法来进行实验，以评估交通监控领域中的 LM 在人类驾驶考试、情景决策和事件因果推理方面的表现。

Jun, 2023

TGIF-QA：关于视觉问答中时空推理的研究

本文提出了三个特别设计用于视频 VQA 的新任务，推出一个新的大型数据集 TGIF-QA，并提出了一种利用空间和时间关注的双 LSTM 方法，证明其在经验评估中的有效性。

Apr, 2017

使用 CLIP 引导的视觉文本注意力进行视频问答

本文提出了一种利用 Contrastive Language-Image Pre-training（CLIP）作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后，利用 CLIP 对一组通用知识域上视觉 - 文本特征进行特征提取，并提出了交叉域学习来提取目标域和通用域间的视觉和语言特征之间的注意力信息，将特征集成用于迁移学习，结果表明这种方法优于现有的最先进方法。

Mar, 2023

从网络视频中学习回答视觉问题

为了避免手动注释，提出了利用自动交叉模态监督生成视频问答数据集的方法，通过使用问题生成变形器从语音转录中生成问题 - 答案对，然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器，生成如何 VQA69M，WebVidVQA3M 和 iVQA 等不同数据集，结果表明在多个数据集上其结果优秀。

May, 2022

用于视频问答的结构化双流注意力网络

本文提出了一种结构化的双流注意力网络（STA）来解决视频问答（VQA），该网络可以识别视频中的长时空结构和文本特征，并将视觉与文本融合以提供准确的答案，在大规模视频 QA 数据集 TGIF-QA 上实验表明，STA 可将 Action，Trans，TrameQA 和 Count 任务的最佳效果提高 13.0％，13.5％，11.0％和 0.3％，在 Action，Trans，TrameQA 任务上也比最佳竞争对手提高 4.1％，4.7％和 5.1％。

Jun, 2022