利用冻结的双向语言模型实现零样本视频问答

Jun, 2022

利用冻结的双向语言模型实现零样本视频问答

Zero-Shot Video Question Answering via Frozen Bidirectional Language Models

Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid

TL;DR本文介绍了一种基于冻结的双向语言模型的零样本视频问答方法，它使用轻量级的可训练模块将可视化输入与冻结的双向语言模型相结合，通过屏蔽的语言模型进行零样本视频问答推理，相较于目前现有的方法，在包括 LSMDC-FiB、iVQA、MSRVTT-QA、MSVD-QA、ActivityNet-QA、TGIF-FrameQA、How2QA 和 TVQA 等各种数据集上，取得了显著的优势，同时在少样本和完全监督的情况下也表现出了有竞争力的结果。

Abstract

video question answering (VideoQA) is a complex task that requires diverse multi-modal data for training. Manual annotation of question and answers for videos, however, is tedious and prohibits scalability. To ta

video question answering zero-shot settings frozen bidirectional language models masked language modeling multi-modal data

发现论文，激发创造

通过冻结大型语言模型实现零样本视频问答

本研究提出一种简单而有效的 Retrieving-to-Answer 框架，通过预先训练的多模态模型从通用文本语料库中检索到一组语义上相似的文本，再与问题一起使用大型语言模型产生答案，可以在多个 VideoQA 基准测试中达到较高水平，并且无需跨模态微调。

Jun, 2023

多模式提示下的零备和少备视频问答

近期的视觉 - 语言模型主要面临有限数据下的过拟合、灾难性遗忘以及视觉与语言之间的跨模态差距等挑战，本研究引入了一种参数高效的方法来解决这些问题，通过结合多模态提示学习和基于 Transformer 的映射网络，在预训练模型的冻结状态下实现。在几个视频问答基准测试中，我们的实验结果证明了我们的方法在性能和参数效率方面在零样本和少样本设置下的优越性。我们的代码可以通过该 https 网址获得。

Sep, 2023

从图像到文本提示：使用 Frozen 大语言模型进行零样本 VQA

提出了 Img2Prompt 模块，它可以提供可以描述图像内容和自构建问题答案对的提示，并且能够帮助 LLMs 执行无需端到端训练的零射击 VQA 任务。

Dec, 2022

从数百万个叙述视频中学习回答问题

本研究提出了一种使用自动跨模态监督和问题生成转换器生成问题和答案对的方法来生成大规模视频问答训练数据集，并提出了一种基于对比损失的训练程序来处理其多样的答案类型。通过实验证明，在 MSRVTT-QA、MSVD-QA、ActivityNet-QA 和 How2QA 等多个任务上，该方法明显优于现有技术。

Dec, 2020

从网络视频中学习回答视觉问题

为了避免手动注释，提出了利用自动交叉模态监督生成视频问答数据集的方法，通过使用问题生成变形器从语音转录中生成问题 - 答案对，然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器，生成如何 VQA69M，WebVidVQA3M 和 iVQA 等不同数据集，结果表明在多个数据集上其结果优秀。

May, 2022

使用冻结语言模型的多模式小样本学习

通过对齐图像和标题数据，我们训练一个视觉编码器将每个图像表示为一系列连续的嵌入，并使用预先训练的冻结语言模型来生成相应的标题，从而将这种少量样本学习能力转移至多模态设置。该系统是一种多模态少样本学习模型，具有学习各种新任务的惊人能力，如用只有少数几个样例进行视觉问答，或者利用外部知识。

Jun, 2021

零样本视频问答的问题引导视觉描述

Q-ViD 是一种简单的视频问答方法，通过使用一个单一的指令感知开放式视觉语言模型（InstructBLIP）来处理视频问答问题，生成视频帧描述，并结合一个大型语言模型（LLM）进行多项选择问答，取得了与当前最先进模型相媲美甚至更高的性能。

Feb, 2024

来自冻结视觉 - 语言模型的零样本视频时刻检索

我们提出了一种零样本方法，可以从任意的视觉语言模型中获得可泛化的视觉文字先验，并利用条件特征细化模块和自下而上的提案生成策略来改善视频片段与文本的对齐，从而在视频片段检索中实现显著的性能优势。

Sep, 2023

冻结 LLMs 的少样本 VQA 方法比较

通过对 LLMs 的两种输入图像的方法进行比较，本研究发现对于具有 3B 参数 LLMs 的 Flan-T5 XL 模型，将图像特征嵌入直接连接到 LLM 嵌入空间并不能保证相比使用图像标题获得更好的性能，在零样本情况下，使用文本图像标题效果更好。在少样本情况下，如何选择上下文示例决定了哪个更好。

Mar, 2024

零射击开放式视频推理

本研究提出了一种自适应框架，通过有效结合冻结的视觉语言模型和现成大型语言模型，在没有使用任何附加训练或微调的情况下，开展视频概念推理任务。在各种视频动作数据集上的实验结果表明，与传统的视觉语言模型相比，该框架在开放式和闭合式情景下在目标推理方面表现出更高的性能。值得注意的是，所提出的框架在行动识别任务中能够有效推广，凸显了它在推动基于视频的零样本理解方面的多样性和潜在贡献。

Jan, 2024