迭代视频 - 文本共同标记的视频问答

ECCVAug, 2022

迭代视频 - 文本共同标记的视频问答

Video Question Answering with Iterative Video-Text Co-Tokenization

AJ Piergiovanni, Kairo Morton, Weicheng Kuo, Michael S. Ryoo, Anelia Angelova

TL;DR本文提出了一种新型的多流视频编码器，使用多个视频输入和新的视频文本迭代共同标记方法来回答与视频相关的各种问题，同时将所需的 GFLOPs 从 150-360 减少到只有 67，实现了高效的视频问答模型，并在 MSRVTT-QA，MSVD-QA，IVQA 等多个数据集上实验评估，优于以往的最先进技术。

Abstract

video question answering is a challenging task that requires understanding jointly the language input, the visual information in individual video frames, as well as the temporal information about the events occurring in the video. In this paper, we propose a novel →

video question answering multi-stream video encoder video-text iterative co-tokenization gflops state-of-the-art

发现论文，激发创造

揭示视频问答的时间背景

本文提出了一个基于循环神经网络的编码器 - 解码器方法，利用双通道排名损失来回答带有时间维度的选择题，同时探讨了 “填空题” 形式的方法来更细致地理解视频内容，并从 TACoS、MPII-MD、MEDTest 14 数据集中收集了超过 1,000 小时的 109,895 视频片段和 390,744 个对应的问题。大量实验表明，我们的方法显著优于已有的基准模型。

Nov, 2015

利用多项选择题桥接视频文本检索

该研究提出了一种新的预训练方法，利用多项选择问题建立视频和文本之间的语义联系以实现更高效的检索，其结果在不同实验设置下如零成本和微调等多种数据集上均优于现有方法。

Jan, 2022

利用视频描述学习视频问答

本文提出了一种可扩展的视频问答技术，利用自动生成的大量候选问题 - 答案对并使用自适应学习方法以处理其中存在的非理想数据，取得了优于基线模型的效果。

Nov, 2016

RTQ：基于图文模型重新思考视频语言理解

我们提出了一种名为 RTQ（Refine，Temporal model 和 Query）的新型框架，同时解决了视频语言理解中的信息冗余、时序依赖和场景复杂度等挑战，这种方法通过对帧内冗余信息的优化、建模帧之间的时序关系和从视频中查询任务特定信息来实现。令人惊讶的是，即使在无视频语言预训练的情况下，我们的模型也表现出色，并且结果与或优于最先进的预训练方法。

Dec, 2023

一个高效的基于 Transformer 的视频问答方法：视频是否能够取代 $n imes n$ 张图像？

本文提出了一种高效的基于现有的视觉 - 语言预训练模型的视频问答方法，该方法将视频帧连接成 $n imes n$ 的矩阵，从而将图像编码器的使用量从 $n^2$ 减少到 1，保持了原始视频的时间结构。实验结果表明，我们的方法在 MSRVTT 和 TrafficQA 数据集上取得了与当前最佳方法相同甚至更好的性能，速度快近 4 倍，使用的内存仅占现有方法的 30%，能够节省计算资源。

May, 2023

从数百万个叙述视频中学习回答问题

本研究提出了一种使用自动跨模态监督和问题生成转换器生成问题和答案对的方法来生成大规模视频问答训练数据集，并提出了一种基于对比损失的训练程序来处理其多样的答案类型。通过实验证明，在 MSRVTT-QA、MSVD-QA、ActivityNet-QA 和 How2QA 等多个任务上，该方法明显优于现有技术。

Dec, 2020

用于高效长视频问答的基于检索的视频语言模型

使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法，通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文，从而降低了视频令牌的数量，消除了噪音干扰，并提高了系统性能。

Dec, 2023

使用 CLIP 引导的视觉文本注意力进行视频问答

本文提出了一种利用 Contrastive Language-Image Pre-training（CLIP）作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后，利用 CLIP 对一组通用知识域上视觉 - 文本特征进行特征提取，并提出了交叉域学习来提取目标域和通用域间的视觉和语言特征之间的注意力信息，将特征集成用于迁移学习，结果表明这种方法优于现有的最先进方法。

Mar, 2023

从网络视频中学习回答视觉问题

为了避免手动注释，提出了利用自动交叉模态监督生成视频问答数据集的方法，通过使用问题生成变形器从语音转录中生成问题 - 答案对，然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器，生成如何 VQA69M，WebVidVQA3M 和 iVQA 等不同数据集，结果表明在多个数据集上其结果优秀。

May, 2022

异构内存增强的多模态注意力模型用于视频问答

本文提出了一种新的端到端可训练的视频问答（VideoQA）框架，包含三个主要组成部分：新的异构内存、重设计的问题内存和新的多模式融合层，其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案，实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。

Apr, 2019