基于交通领域的自动字幕视频问答
本文提出了一种基于视频问答的交通事件认知数据集,用于基准测试因果推理和事件理解模型在复杂交通场景中的认知能力,并提出了一个针对各种交通场景的挑战性推理任务来评估不同类型的复杂但实用的交通事件的推理能力。此外,提出了一种新的高效视频推理模型,命名为 Eclipse,通过动态推理实现计算效率和可靠性的平衡。实验证明,我们的方法在显著降低计算成本的同时,实现了卓越的性能。
Mar, 2021
本文讨论交通理解的文本方法,采用三种基于知识的方法进行针对交通情境的零 - shot 问答,在大量语料库和知识图中提取常识知识。作者构建两个文本多项选择问答集来评估交通领域的因果推理和类似于人类驾驶执照测试的领域知识,其中 Unified-QA 是最好的方法之一,而 DPR+Unified-QA 的知识提取方式更为高效。
Dec, 2022
自动驾驶领域长期以来面临着公众接受度低的问题,本研究通过视频问答的自然语言处理为决策过程提供了可解释性,同时引入了 LingoQA 基准测试集以填补评估视频问答模型性能的空白,并通过与人工评估的 0.95 斯皮尔曼相关系数进行了验证,其次还提出了一个包含 419,000 个样本的中央伦敦视频问答数据集,建立了基线视觉 - 语言模型,并进行了大量的消融分析以评估其性能。
Dec, 2023
通过在交通领域中设计了三个新的基于文本的任务,我们采用了四种知识增强方法来进行实验,以评估交通监控领域中的 LM 在人类驾驶考试、情景决策和事件因果推理方面的表现。
Jun, 2023
本文提出了三个特别设计用于视频 VQA 的新任务,推出一个新的大型数据集 TGIF-QA,并提出了一种利用空间和时间关注的双 LSTM 方法,证明其在经验评估中的有效性。
Apr, 2017
本文提出了一种利用 Contrastive Language-Image Pre-training(CLIP)作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后,利用 CLIP 对一组通用知识域上视觉 - 文本特征进行特征提取,并提出了交叉域学习来提取目标域和通用域间的视觉和语言特征之间的注意力信息,将特征集成用于迁移学习,结果表明这种方法优于现有的最先进方法。
Mar, 2023
为了避免手动注释,提出了利用自动交叉模态监督生成视频问答数据集的方法,通过使用问题生成变形器从语音转录中生成问题 - 答案对,然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器,生成如何 VQA69M,WebVidVQA3M 和 iVQA 等不同数据集,结果表明在多个数据集上其结果优秀。
May, 2022
本文提出了一种结构化的双流注意力网络(STA)来解决视频问答(VQA),该网络可以识别视频中的长时空结构和文本特征,并将视觉与文本融合以提供准确的答案,在大规模视频 QA 数据集 TGIF-QA 上实验表明,STA 可将 Action,Trans,TrameQA 和 Count 任务的最佳效果提高 13.0%,13.5%,11.0%和 0.3%,在 Action,Trans,TrameQA 任务上也比最佳竞争对手提高 4.1%,4.7%和 5.1%。
Jun, 2022