一个高效的基于 Transformer 的视频问答方法：视频是否能够取代 $n imes n$ 张图像？

May, 2023

一个高效的基于 Transformer 的视频问答方法：视频是否能够取代 $n imes n$ 张图像？

Is a Video worth $n\times n$ Images? A Highly Efficient Approach to Transformer-based Video Question Answering

Chenyang Lyu, Tianbo Ji, Yvette Graham, Jennifer Foster

TL;DR本文提出了一种高效的基于现有的视觉 - 语言预训练模型的视频问答方法，该方法将视频帧连接成 $n imes n$ 的矩阵，从而将图像编码器的使用量从 $n^2$ 减少到 1，保持了原始视频的时间结构。实验结果表明，我们的方法在 MSRVTT 和 TrafficQA 数据集上取得了与当前最佳方法相同甚至更好的性能，速度快近 4 倍，使用的内存仅占现有方法的 30%，能够节省计算资源。

Abstract

Conventional transformer-based video question answering (VideoQA) approaches generally encode frames independently through one or more image encoders followed by interaction between frames and question. However, such schema would incur significant memory use and inevitably slow down th

transformer-based video question answering pre-trained models temporal structure state-of-the-art performance computational requirements

发现论文，激发创造

迭代视频 - 文本共同标记的视频问答

本文提出了一种新型的多流视频编码器，使用多个视频输入和新的视频文本迭代共同标记方法来回答与视频相关的各种问题，同时将所需的 GFLOPs 从 150-360 减少到只有 67，实现了高效的视频问答模型，并在 MSRVTT-QA，MSVD-QA，IVQA 等多个数据集上实验评估，优于以往的最先进技术。

Aug, 2022

一张图片抵 16x16 字，一段视频抵多少字？

本文提出了一种使用全局注意机制的时间变换器，以更好地利用每个帧的显着信息来显著减少推理时间和数据帧，从而提高输入效率，在 Kinetics 数据集上实现了 SotA 结果。

Mar, 2021

视频问答的冗余感知 Transformer

这篇论文介绍了当前 VideoQA 中存在的两种冗余问题，并提出了一种新的基于 Transformer 的体系结构来解决这些问题，通过模拟 VideoQA 的冗余特点，该模型在多个 VideoQA 基准上取得了最先进的结果。

Aug, 2023

具有金字塔式多模态变换器的高效端到端视频问答

本文提出了一种新的端到端视频问答方法，使用金字塔多模态变换器（PMT）模型实现视频语言交互，通过使用异性金字塔在不同的时空尺度上实现跨视频语言交互，并在保持本地和全局语义完整性的同时，将视频特征流分解为空间和时间子流，并实现它们与语义的交互，并结合可重用的预训练权重的特征提取器，在 5 个视频问答基准测试中实现更好或同等的性能。

Feb, 2023

视频问题回答的视频图变换器

该研究论文提出了一种名为 VGT 的视频图形转换器模型，旨在解决视频问答任务中动态关系推理方面的挑战，其独特性在于利用动态图形变换器模块对视频进行编码，并利用分离的视频和文本变换器来执行问答任务。通过充分的分析和启发性的观察，证明了 VGT 的有效性和优越性，并揭示了其可用于更数据有效的预训练。

Jul, 2022

从网络视频中学习回答视觉问题

为了避免手动注释，提出了利用自动交叉模态监督生成视频问答数据集的方法，通过使用问题生成变形器从语音转录中生成问题 - 答案对，然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器，生成如何 VQA69M，WebVidVQA3M 和 iVQA 等不同数据集，结果表明在多个数据集上其结果优秀。

May, 2022

从数百万个叙述视频中学习回答问题

本研究提出了一种使用自动跨模态监督和问题生成转换器生成问题和答案对的方法来生成大规模视频问答训练数据集，并提出了一种基于对比损失的训练程序来处理其多样的答案类型。通过实验证明，在 MSRVTT-QA、MSVD-QA、ActivityNet-QA 和 How2QA 等多个任务上，该方法明显优于现有技术。

Dec, 2020

太多的帧，不全是有用的：长篇视频问答的高效策略

长篇视频中的关键帧选择和顺序感知字幕生成能够显著减少信息冗余，我们提出的 LVNet 框架通过两种新的方法在 LVQA 基准数据集上实现了最先进的性能。

Jun, 2024

视频问答的时域金字塔变换器和多模态交互

本文提出了一种基于时域金字塔变换器的多模交互模型，用于视频问答，实现了问题语义的建立和视频信息的推断，并在三个视频问答数据集上通过了广泛的实验证明了该方法相较于现有技术的卓越表现。

Sep, 2021

用于视频问答的结构化双流注意力网络

本文提出了一种结构化的双流注意力网络（STA）来解决视频问答（VQA），该网络可以识别视频中的长时空结构和文本特征，并将视觉与文本融合以提供准确的答案，在大规模视频 QA 数据集 TGIF-QA 上实验表明，STA 可将 Action，Trans，TrameQA 和 Count 任务的最佳效果提高 13.0％，13.5％，11.0％和 0.3％，在 Action，Trans，TrameQA 任务上也比最佳竞争对手提高 4.1％，4.7％和 5.1％。

Jun, 2022