零样本视频问答与程序化程序

Dec, 2023

Zero-Shot Video Question Answering with Procedural Programs

Rohan Choudhury, Koichiro Niinuma, Kris M. Kitani, László A. Jeni

TL;DR我们提出使用程序化的短程序来回答关于视频的零样本问题，通过解决一系列视觉子任务来得出最终答案。我们提供的 ProViQ 框架在视频理解方面取得了最先进的结果，并在多个基准测试中实现了高达 25% 的提升，可以执行除了问题回答之外的其他视频任务。

Abstract

We propose to answer zero-shot questions about videos by generating short procedural programs that derive a final answer from solving a sequence of visual subtasks. We present Procedural Video Querying (

zero-shot questions procedural programs proviq video understanding video question-answering

发现论文，激发创造

零样本视频问答的问题引导视觉描述

Q-ViD 是一种简单的视频问答方法，通过使用一个单一的指令感知开放式视觉语言模型（InstructBLIP）来处理视频问答问题，生成视频帧描述，并结合一个大型语言模型（LLM）进行多项选择问答，取得了与当前最先进模型相媲美甚至更高的性能。

Feb, 2024

从网络视频中学习回答视觉问题

为了避免手动注释，提出了利用自动交叉模态监督生成视频问答数据集的方法，通过使用问题生成变形器从语音转录中生成问题 - 答案对，然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器，生成如何 VQA69M，WebVidVQA3M 和 iVQA 等不同数据集，结果表明在多个数据集上其结果优秀。

May, 2022

利用冻结的双向语言模型实现零样本视频问答

本文介绍了一种基于冻结的双向语言模型的零样本视频问答方法，它使用轻量级的可训练模块将可视化输入与冻结的双向语言模型相结合，通过屏蔽的语言模型进行零样本视频问答推理，相较于目前现有的方法，在包括 LSMDC-FiB、iVQA、MSRVTT-QA、MSVD-QA、ActivityNet-QA、TGIF-FrameQA、How2QA 和 TVQA 等各种数据集上，取得了显著的优势，同时在少样本和完全监督的情况下也表现出了有竞争力的结果。

Jun, 2022

视觉编程：无需训练的构成性视觉推理

VISPROG 是一种神经符号方法，用于解决复杂和组合的视觉任务，所需的仅是自然语言指令，通过生成类似 Python 的模块化程序来实现，每行程序可以调用各种计算机视觉模型，图像处理算法或 Python 函数以产生中间输出，展示了其在 4 个不同的任务上的灵活性。

Nov, 2022

VideoPro：一种交互式视频编程的视觉分析方法

通过视觉分析和数据编程，本文提出了 VideoPro，一种支持灵活和可扩展的视频数据编程的方法，以减少人力成本并监控模型效果的可视界面。通过提取视频中的可理解事件并利用其作为标签函数的组成部分，我们进一步提出了一种两阶段的模板挖掘算法用于高效的数据标注。通过两个案例研究和专家访谈的验证，证明了我们的方法的效率和有效性。

Aug, 2023

从数百万个叙述视频中学习回答问题

本研究提出了一种使用自动跨模态监督和问题生成转换器生成问题和答案对的方法来生成大规模视频问答训练数据集，并提出了一种基于对比损失的训练程序来处理其多样的答案类型。通过实验证明，在 MSRVTT-QA、MSVD-QA、ActivityNet-QA 和 How2QA 等多个任务上，该方法明显优于现有技术。

Dec, 2020

利用视频描述学习视频问答

本文提出了一种可扩展的视频问答技术，利用自动生成的大量候选问题 - 答案对并使用自适应学习方法以处理其中存在的非理想数据，取得了优于基线模型的效果。

Nov, 2016

多模式提示下的零备和少备视频问答

近期的视觉 - 语言模型主要面临有限数据下的过拟合、灾难性遗忘以及视觉与语言之间的跨模态差距等挑战，本研究引入了一种参数高效的方法来解决这些问题，通过结合多模态提示学习和基于 Transformer 的映射网络，在预训练模型的冻结状态下实现。在几个视频问答基准测试中，我们的实验结果证明了我们的方法在性能和参数效率方面在零样本和少样本设置下的优越性。我们的代码可以通过该 https 网址获得。

Sep, 2023

一种用于长视频问答的简单 LLM 框架

我们介绍了 LLoVi，这是一个用于长距离视频问答（LVQA）的基于语言的框架。我们的方法使用基于帧 / 片段级的视觉描述器和大型语言模型（如 GPT-3.5，GPT-4），结合简单且出奇有效的 LVQA 框架，将短期和长期建模方面分解为两个阶段，从而实现对整个视频的理解和问题的回答。

Dec, 2023

面向操作流程的指导视频理解预训练

本研究旨在利用视频表示学习技术，通过构建 Procedural Knowledge Graph (PKG) 生成伪标签来训练视频表示模型，以提高多种程序理解任务的精度。其中 PKG 结构由通过无标签的教学视频和基于文本的程序知识库信息融合而成，训练数据使用了四个新的预训练目标。最终模型 Paprika 在 12 个任务上实现了高达 11.23% 的精度提升。

Mar, 2023